4 современных метода увеличения данных изображения

Думаете о том, чтобы еще немного повысить точность?

Аугментация данных — это уловки, которые почти каждый инженер по машинному обучению использует для улучшения своих результатов. Простые трюки, такие как переворот изображения, могут легко повысить точность вашей модели классификации изображений на несколько процентов без особой тонкой настройки.

Однако мы сегодня будем говорить не об этих простых приемах, таких как переворачивание, вращение и дрожание изображений. Вместо этого мы поговорим о 4 нестандартных методах, которые были введены в эпоху глубокого обучения и показали себя более чем многообещающими в улучшении задач, связанных с изображениями, таких как классификация, обнаружение и сегментация. Будьте готовы, так как некоторые из этих аугментационных техник могут показаться слишком странными, чтобы быть правдой!

1. Вырез

Вырезка — пожалуй, самая интуитивно понятная техника из 4-х, представленных в этой статье. Цель состоит в том, чтобы вырезать часть изображения и использовать оставшуюся часть в качестве новых данных изображения с той же меткой (см. рис. 1). Поскольку методы увеличения, такие как дрожание и добавление цветов, чтобы сделать изображения более сложными, показали свою эффективность, метод вырезания не должен отличаться от работы.

2. Перепутать

Эта стратегия увеличения данных, представленная в 2017 году, настолько проста, что на первый взгляд часто возникают сомнения в ее способности. Чжан и др. в своей бумаге впервые предложили эту технику: мы интерполируем два изображения и интерполируем соответствующие метки, чтобы использовать их в качестве новой метки.

Благодаря многочисленным тестам на разных наборах данных мы действительно видим, что этот простой метод повысил производительность для различных базовых моделей. Предполагается, что результат возникает из-за смешивания мягких меток, создаваемых в наборах данных, так что во время обучения наблюдается более широкое распределение данных.

Примечание: у меня есть еще одна статья о реализации Mixup здесь.

3. CutMix

Теперь, если вы удивлены, что миксап работает, вы будете в восторге от того, что CutMix работает еще лучше! Вместо того, чтобы смешивать каждый пиксель, Юн и др. решает вырезать часть одного изображения и вставить его в другое, а соотношение вырезания и вставки используется в качестве новой метки для сгенерированного изображения (см. рис. 1). Опять же, этот метод настолько прост и легок в реализации, но в то же время эффективен в решении задач классификации изображений.

Кстати, в недавней статье Attentive CutMix представлена подробная карта функций, чтобы решить, где вырезать и вставить, что показывает еще лучшие эффекты.

4. Скопируйте и вставьте

Гиази и др. решил перенести успех CutMix на сегментацию экземпляров, случайным образом скопировав экземпляр с одного изображения на другое, чтобы позволить изображению правильно его сегментировать. Аналогичным образом, результаты показали, что такая техника аугментации эффективна для повышения производительности.

Самостоятельное тестирование

Тестирование всех этих методов увеличения данных не представляет сложности с такими фреймворками, как PyTorch. Можно легко изменить изображение и соответствующие метки внутри загрузчика данных, чтобы реализовать все вышеперечисленные методы увеличения данных.

Однако, поскольку нам нужно погрузиться в загрузчики данных, мы не сможем напрямую использовать загрузчики данных, предоставляемые PyTorch. Одной из платформ, которую я нашел полезной, является платформа Graviti Open Dataset, которая подключается к многочисленным академически известным наборам данных (например, CIFAR10, ImageNet), что избавляет от необходимости изучать, какие наборы данных часто используются для конкретных задач. Я бы также порекомендовал сам учебник от PyTorch по загрузчикам данных при добавлении ваших аугментаций.

Заключение

Итак, у вас есть это! Надеемся, что они добавят еще несколько трюков, с которыми вы можете поиграть, чтобы поднять свои модели изображений на новый уровень!

Спасибо, что зашли так далеко🙏! Я буду публиковать больше сообщений о различных областях компьютерного зрения/глубокого обучения, так что присоединяйтесь и подписывайтесь, если вы интересно узнать больше!