Понимание потери фокуса для классификации на уровне пикселей в сверточных нейронных сетях

Плавная версия кросс-энтропийной потери для быстрой сходимости

Как я писал в последней статье этой серии, потеря фокуса - это более сфокусированная потеря перекрестной энтропии. В задачах семантической сегментации потеря фокуса может помочь модели сфокусироваться на пикселях, которые еще не были хорошо обучены, что более эффективно и целенаправленно, чем потеря перекрестной энтропии. Я рекомендую статью, если вы ее еще не читали.

Демистификация потери фокуса I: более сфокусированная версия потери кросс-энтропии
В компьютерном зрении кросс-энтропия является широко используемым элементом потерь в задачах классификации. В семантической сегментации мы… medium.com

Снова в этой статье я хотел бы поговорить о варианте потери фокуса, который можно использовать как потерю кросс-энтропии с учетом расстояния в задачах семантической сегментации, особенно с разреженными метками.

Проблема стандартной кросс-энтропийной потери

Кросс-энтропийная потеря обычно используется в семантической сегментации, при которой каждый пиксель изображения помечается номером категории, и модель обучается предсказывать это число для каждого пикселя.

Этот способ попиксельного предсказания широко используется почти во всех научных статьях о семантической сегментации. Однако существует проблема, которая может плохо повлиять на конвергенцию и редко обсуждается. Чем реже будут надписи, тем серьезнее будет проблема.

В качестве примера возьмем сценарий двоичной классификации. Расширение до мультиклассовой классификации несложно. Посмотрите на следующий рисунок 1, на котором синий пиксель помечен цифрой 1, а все остальные пиксели помечены цифрой 0. Это помеченное изображение чрезвычайно разреженное и несбалансированное, поскольку только один пиксель помечен как класс переднего плана.

Теперь изображение, показанное на Рисунке 1, вводится в нашу модель, и мы получаем выходное изображение, в котором предсказана метка каждого пикселя. Как концептуально показано на рисунке 2, среди всех полученных пикселей мы берем для обсуждения два из них. Два пикселя окрашены в зеленый цвет, и помеченный синий пиксель также сохранен здесь для простоты объяснения.

Предположим, что два зеленых пикселя предсказаны с одинаковой вероятностью 0,9, что означает, что вероятность того, что их метки будут равны 1, равна 0,9, а вероятность того, что их метки будут равны 0, равна 0,1. Поскольку их настоящие метки равны 0, два зеленых пикселя будут серьезно наказаны во время этого цикла обучения, потому что вероятность для реальной метки составляет всего 0,1, что слишком мало.

Несмотря на то, что их расстояния до синего пикселя переднего плана совершенно разные, два зеленых пикселя будут наказаны одинаково, если будет принята стандартная двоичная перекрестная потеря энтропии. Это не проблема, если обе метки распределены равномерно. Однако, поскольку метки переднего и заднего плана в этом примере сильно несбалансированы, мы надеемся, что модель может быть обучена фокусироваться и сводить результаты прогнозирования к пикселю переднего плана. В частности, пиксели фона в пределах небольшого радиуса от пикселя переднего плана могут быть предсказаны до 1, при этом допустимая степень монотонно меняется в зависимости от их расстояния до пикселя переднего плана. Однако это не может быть реализовано со стандартной кросс-энтропийной потерей, при которой каждый пиксель обучается индивидуально, независимо от других пикселей. Это просто проблема стандартной перекрестной потери энтропии при использовании в задачах с разреженными метками.

Кросс-энтропийная потеря с учетом расстояния

Поскольку проблемы со стандартной кросс-энтропийной потерей обсуждались выше, задачи с сильно несбалансированными метками, такие как определение точек лица [Sun 2013], определение позы человека [Newell 2016] и т. Д., Использовали потерю среднеквадратичной ошибки (MSE) для обучения. Изображения этикеток показаны на рисунке 3.

MSE работает, сводя к минимуму разницу между реальными и предсказанными положениями ключевых точек в структуре регрессии на уровне пикселей. Функция потерь MSE показана на рисунке 4.

Проблема этого подхода заключается в том, что прогнозы содержат только положения пикселей, в то время как их семантическая информация теряется. Если кто-то хочет использовать прогнозируемые ключевые точки для некоторого процесса публикации, он должен разработать шаблон, чтобы заранее разобраться с внутренними отношениями между точками, что может быть сложно.

Следовательно, в таких задачах с сильно несбалансированными метками, можем ли мы обучить модель эффективно изучать положение меток переднего плана, сохраняя при этом их семантическую информацию?

Как обсуждалось выше, ответ - Да! Мы можем изменить стандартную кросс-энтропийную потерю в два этапа, чтобы получить такую новую функцию потерь. Во-первых, измените его на фокальные потери [Lin 2017]. Во-вторых, измените потерю фокуса, чтобы знать расстояние до меток переднего плана. Я называю это кросс-энтропийной потерей с учетом расстояния [Закон 2018].

На первом этапе стандартные кросс-энтропийные потери изменяются на фокальные потери, как показано на рисунке 5. В уравнении pt является мерой точности прогноза. Чем выше pt, тем точнее прогноз. Поскольку pt находится между 0 и 1, коэффициент 1-pt может использоваться для уменьшения стандартной потери кросс-энтропии, если точность уже достаточно высока, что позволяет модели сосредоточить внимание на областях, которые еще не были хорошо обучены. Я рекомендую прочитать мой последний пост, чтобы узнать подробности.

На втором этапе, как обсуждалось выше, разрешено предсказывать фоновые пиксели в пределах небольшого радиуса пикселя переднего плана до 1, при этом допустимая степень изменяется монотонным образом в соответствии с их расстояниями до пикселя переднего плана. Следовательно, для пикселей фона с меткой 0 добавляется коэффициент расстояния, чтобы уменьшить их значения потерь в соответствии с их расстоянием до ближайшего пикселя переднего плана с меткой 1.

Чтобы получить эту функцию потерь, мы разделим фокусные потери на два уравнения в соответствии с разными значениями меток (0 и 1). Затем добавляется коэффициент расстояния ycij, как показано на рисунке 6. Здесь коэффициент расстояния ycij представляет собой гауссову функцию с центром в позиции метки переднего плана в пространстве 2D-изображения, как показано на рисунке 7. Значение функции в центре равно 1 и уменьшается монотонно как удаляющийся от центра. Таким образом, потеря фокуса не изменяется для пикселей переднего плана (верхнее уравнение на Рисунке 6). Для фоновых пикселей под влиянием фактора 1-ycij потери в фокусе значительно снижаются по мере приближения к пикселям переднего плана, в то время как остаются почти неизменными по мере удаления от них (нижнее уравнение на рисунке 6).

Как следствие, с помощью фактора расстояния можно изменить потерю фокуса, чтобы сосредоточить внимание на результатах прогнозирования и привести их к пикселям переднего плана для задач с сильно несбалансированными метками переднего плана и фона. Потери фокуса улучшают традиционные потери дискретной кросс-энтропии по пикселям до непрерывных плавных потерь, как показано на рис. 7, которые сходятся быстрее.

использованная литература

Каскад глубокой сверточной сети для обнаружения точек на лице, Sun et al., CVPR 2013

Сложенные сети песочных часов для оценки позы человека, Ньюэлл и др., ECCV 2016

Потеря фокуса для обнаружения плотных объектов, Лин и др., ICCV 2017

CornerNet: обнаружение объектов как парных ключевых точек, Ло и др., ECCV 2018

Понимание потери фокуса для классификации на уровне пикселей в сверточных нейронных сетях

Плавная версия кросс-энтропийной потери для быстрой сходимости

Проблема стандартной кросс-энтропийной потери

Кросс-энтропийная потеря с учетом расстояния

использованная литература

Вопросы по теме