Обучение на несбалансированных данных — понимание проблемы и выбор подходящих методов для ее смягчения.

Известно, что проблема дисбаланса классов значительно ухудшает эффективность классификации и привлекает все большее внимание исследователей. Чтобы применить на практике текущие стратегии смягчения последствий и создать новые, крайне важно понять, как проблема дисбаланса классов проявляется в наборе данных.

Здравствуйте, читатели Медиума! Наконец-то я нашел время и набрался смелости, чтобы начать писать на этой известной платформе. Я не буду вдаваться в подробности о себе здесь; вместо этого вы можете проверить раздел о себе моего профиля. Я просто кратко упомяну, что последние 5 лет я исследовал и практиковал машинное обучение и науку о данных и недавно получил докторскую степень в этой области. Я провел большую часть своего последнего времени, исследуя тему обучения на несбалансированных данных, которая также была основной темой моей докторской диссертации. Чтобы должным образом решить проблему классового дисбаланса, я решил написать серию кратких историй, которые послужат исчерпывающим руководством для профессионалов, работающих в этой области. В этом руководстве объясняется природа проблемы, ее проявления, а также наиболее эффективные методы предварительной обработки и алгоритмы классификации, используемые для ее устранения. Руководство будет построено следующим образом:

  • Часть 1. Введение в проблему дисбаланса классов
  • Часть 2. Предварительная обработка несбалансированных наборов данных с использованием выбора признаков
  • Часть 3. Предварительная обработка несбалансированных наборов данных с использованием передискретизации
  • Часть 4. Выбор подходящего алгоритма классификации несбалансированных наборов данных

Введение

Цель алгоритма классификации — построить модель распределения меток классов с учетом функций, используемых для описания экземпляров в наборе данных. Хотя для выполнения этой задачи было разработано множество алгоритмов, характеристики и размер наборов данных сильно влияют на их производительность.

Различные внутренние характеристики наборов данных увеличивают их сложность и снижают производительность классификатора. Общеизвестной внутренней характеристикой данных, которая привлекла внимание исследователей, является концепция дисбаланса классов, согласно которой ярлык одного класса представлен в меньшей степени. Обычно проблемы классификации бывают несбалансированными, причем некоторые из наиболее важных из них возникают в таких прикладных областях, как биомедицина, финансы, информационные технологии, промышленное производство и управление безопасностью¹. В этих проблемах крайне важно распознавать экземпляр миноритарного класса (например, обнаруживать мошеннические транзакции, диагностировать вредоносные заболевания или распознавать дефектные продукты).

Однако процедуры обучения стандартных алгоритмов классификации предвзяты к мажоритарному классу, поскольку они стремятся максимизировать точность классификации или свести к минимуму ошибку. В результате они работают значительно хуже при идентификации класса меньшинства, чем при распознавании экземпляров класса большинства. Большинство стандартных классификаторов в литературе демонстрируют такое поведение². Например, функция потерь ноль-единица в многослойном персептроне (MLP)³ и общий критерий разделения в >дерево решений (DT)⁴ одинаково наказывает за неправильную классификацию каждого экземпляра, в результате чего модели классификации смещаются в сторону класса большинства. Сама формулировка алгоритма автомата опорных векторов (SVM) процедуры оптимизации (так называемая мягкая маржа) вызывает большее несоответствие в количестве опорных векторов каждого класса, что снижает его обобщающую способность и повышает возможность классификации невидимого экземпляра как члена большинства классов⁵. Дисбаланс классов также влияет на алгоритм k ближайших соседей (k-NN), который присваивает метку класса с наивысшей априорной вероятностью класса⁶. Чтобы проиллюстрировать влияние дисбаланса классов на вышеупомянутые алгоритмы классификации, на рисунке показаны границы их решений, которые заметно ближе к экземплярам миноритарного класса.

Проявление проблемы дисбаланса классов

Большая часть литературы по несбалансированному обучению посвящена проблемам бинарной классификации, когда один класс значительно превосходит по численности другой. Класс меньшинства также обозначается как положительный, а большинство - как отрицательный класс. Обычно для обозначения степени дисбаланса используется коэффициент дисбаланса (IR), который определяется как количество большинства экземпляров, деленное на количество меньшинства. Хотя желательно иметь как можно меньше IR, было бы ошибочно полагать, что IR является надежным показателем сложности несбалансированного набора данных. Некоторые исследования показывают, что концепция класса меньшинства может быть довольно точно изучена из определенных наборов данных, несмотря на их несбалансированность² ⁷. Коэффициент дисбаланса не является адекватным индикатором сложности обучения, поскольку наборы данных включают в себя другие внутренние характеристики, которые также ухудшают эффективность классификации, наиболее важными из которых являются шум, абсолютная редкость, небольшие дизъюнкции и перекрытие классов⁸.

Серьезность проблемы классового дисбаланса отражается в этих характеристиках, что еще больше усугубляет их последствия. Шум часто имеет гораздо более неприятные последствия в несбалансированных наборах данных, чем в сбалансированных. Неправильная маркировка экземпляра меньшинства увеличит коэффициент дисбаланса и внесет экземпляры большинства в область класса меньшинства. Когда экземпляр большинства помечен неправильно, концепция класса меньшинства становится более сложной. Хотя есть много способов удалить шум из набора данных, следует соблюдать осторожность при удалении второстепенных экземпляров, которые идентифицируются как шум, поскольку это увеличивает коэффициент дисбаланса и может привести к абсолютной редкости. сильный>. Многие проблемы классификации затрагиваются вопросом абсолютной редкости. Поскольку оба представляют собой редкие экземпляры во входном пространстве, экземпляры меньшинства могут рассматриваться как шум, в то время как шум может быть ошибочно идентифицирован как действительный экземпляр меньшинства. Из-за отсутствия репрезентативных экземпляров меньшинства классификаторы будут утверждать, что класс большинства занимает большую часть входного пространства.

Экземпляры во входном пространстве часто рассредоточены, так что концепция их класса представлена ​​как дизъюнкция нескольких подпонятий. Это усложняет задачу классификации. Это особенно проблематично, если класс меньшинства разделен таким образом, поскольку абсолютная редкость может повлиять на его подпонятия. Кроме того, более мелкие подпонятия в большей степени способствуют накоплению ошибки классификации, чем более крупные. Устранение экземпляров, составляющих мелкие подконцепции, является распространенным решением этой проблемы. Однако это в первую очередь устранит экземпляры класса меньшинства, что сделает его концепцию еще более сложной для изучения.

Ни один классификатор не застрахован от перекрытия классов, хотя каждый из них работает по-своему. Одни и те же области входного пространства могут содержать экземпляры многих классов, что вызвано небольшими различиями в значениях признаков между экземплярами те классы. Из-за неспособности классификатора различить четкую границу класса в этой ситуации классификаторы обычно классифицируют экземпляры в доминирующий класс области перекрытия классов.

Подходы к смягчению проблемы классового дисбаланса

Как объяснялось выше, проблема дисбаланса классов отражается в различных внутренних характеристиках данных, что делает их влияние еще менее благоприятным. Учитывая сложность и распространенность этой проблемы, неудивительно, что для ее решения были предложены различные подходы. Основная цель таких подходов – повысить эффективность распознавания классов меньшинств без ухудшения общей эффективности классификации. Их можно разделить на четыре основные группы:

  • Подходы на уровне алгоритма
  • Подходы на уровне данных
  • Экономичное обучение
  • Ансамбли

Исследователи выбирают подходы на уровне алгоритма или на уровне данных, чтобы повысить эффективность классификации для меньшинства. В то время как первые стремятся адаптировать существующие классификаторы, чтобы уменьшить смещение в сторону класса большинства, вторые стремятся сбалансировать распределение классов путем повторной выборки входного пространства⁹. Один компонент подходов на уровне алгоритма, известный как обучение с учетом затрат, основан на изменении функции потерь алгоритма машинного обучения, чтобы принять более высокие затраты на ошибочную классификацию для класса меньшинства. Подходы на уровне алгоритмов не так популярны в литературе, поскольку их, возможно, сложнее разработать и реализовать, чем подходы на уровне данных. Каждый из этих подходов имеет некоторые преимущества, поэтому их можно комбинировать для создания ансамбля для еще большего повышения эффективности классификации. Эффективность ансамбля зависит от выбора подходящей комбинации этих стратегий, и определение этого представляет собой дополнительную проблему.

Только подходы на уровне данных напрямую решают проблему дисбаланса классов в наборе данных, повышая эффективность различныхклассификаторов в процессе. Среди этих подходов выделяются выбор признаков (FS) и повторная выборка (RS) как процедуры предварительной обработки набора данных, которые упрощают концепцию класса меньшинства и облегчают его распознавание. Как свидетельствует их процент использования в 10 лучших публикациях для каждой проблемы классификации, показанной на рисунке ниже, эти процедуры также наиболее часто используются в литературе для решения проблемы дисбаланса классов. Их простота и эффективность делают их подходящим выбором для решения проблемы дисбаланса классов.

Хотя процедуры FS и RS значительно смягчают проблему, они не решают ее полностью. Поэтому при обучении на несбалансированных данных крайне важно учитывать возможности классификатора. В следующих статьях я объясню, как выполнить эти шаги предварительной обработки и как выбрать подходящий алгоритм классификации.

Заключение

Изучение несбалансированных данных является сложной задачей, которая представлена ​​в многочисленных проблемах классификации, возникающих в различных областях применения, таких как медицинская диагностика и обнаружение вторжений, ошибок или мошенничества. В этом посте мы рассмотрели несколько советов по решению проблемы дисбаланса классов, пытаясь глубже понять его проявления. Обратите внимание на следующее краткое резюме:

  • Проблема дисбаланса классов проявляется в увеличении сложности набора данных.
  • Классификаторы смещены в сторону класса большинства, поэтому они плохо справляются с идентификацией класса меньшинства.
  • Были предложены различные подходы для смягчения проблемы дисбаланса классов. Их можно разделить на подходы на уровне алгоритмов, на уровне данных, с учетом затрат и ансамблевые подходы.
  • Степень проблемы дисбаланса классов может быть непосредственно уменьшена только подходами на уровне данных, что в конечном итоге повышает производительность различных типов классификаторов.
  • Среди этих подходов выбор признаков и повторная выборка выделяются как методы предварительной обработки набора данных, которые делают концепцию класса меньшинства менее сложной и улучшают ее распознавание.

Поддерживать связь

Спасибо, что прочитали мой пост! Я надеюсь, что вы повелели. Пожалуйста, свяжитесь со мной через мой профиль LinkedIn, если у вас возникли проблемы с дисбалансом классов в вашем наборе данных или просто есть вопросы по вопросам, связанным с наукой о данных и машинным обучением.

Если вы хотите узнать больше о неотъемлемых характеристиках данных, которые затрудняют обучение на несбалансированных данных, прочитайте мою научную статью по этой теме. Вы также можете найти больше статей об обучении на несбалансированных данных в моем профиле RG.

Подпишитесь на меня в Medium, чтобы получать больше подобного контента.

Рекомендации

  1. Г. Хайсян и соавт. Обучение на несбалансированных по классам данных: обзор методов и приложений. Экспертные системы с приложениями, 73:220–239, 2017 г.
  2. Х. Он и Э.А. Гарсия. Обучение на несбалансированных данных. IEEE Transactions on Knowledge and Data Engineering, 21(9):1263–1284, 2009 г.
  3. К.Л. Кастро и А.П. Брага. Новый экономичный подход для улучшения производительности многоуровневого восприятия несбалансированных данных. Транзакции IEEE в нейронных сетях и системах обучения, 24(6):888–899, 2013 г.
  4. Д.А. Чеслак и др. Деревья решений расстояния Хеллингера устойчивы и нечувствительны к перекосам. Интеллектуальный анализ данных и обнаружение знаний, 24(1):136–158, 2012 г.
  5. Р. Батувита и В. Паладе. Методы обучения дисбалансу классов для машины опорных векторов. Несбалансированное обучение: основы, алгоритмы и приложения, 83–99, 2013 г.
  6. В. Лю и С. Чавла. Алгоритмы knn, взвешенные по достоверности класса, для несбалансированных наборов данных. Материалы 15-й Тихоокеанской азиатской конференции по обнаружению знаний и интеллектуальному анализу данных (PAKDD),345–356, 2011 г.
  7. В. Гарсия, Х. Санчес, Р. Моллинеда. Эмпирическое исследование поведения классификаторов на несбалансированных и перекрывающихся наборах данных. Материалы Ибероамериканского конгресса по распознаванию образов, 397–406, 2007 г.
  8. М. Дуджак, Г. Мартинович. Эмпирическое исследование внутренних характеристик данных, которые затрудняют обучение на несбалансированных данных. Экспертные системы с приложениями, 182:115297, 2021 г.
  9. М. Дуджак, Г. Мартинович. Углубленный анализ производительности алгоритмов передискретизации на основе smote в двоичной классификации. Международный журнал электрических и компьютерных инженерных систем, 11(1):13–21, 2020 г.