Внутри ИИ

Меры точности для машинного обучения

Автор доктор Том Уайтхед (руководитель отдела машинного обучения в Intellegens)

Введение

Эта статья представляет собой краткое введение в некоторые идеи, лежащие в основе измерения точности инструментов контролируемого машинного обучения. Первая половина посвящена алгоритмам классификации; те, которые решают, к какому из нескольких классов принадлежит образец. Главным мерилом точности здесь является матрица путаницы, из которой можно извлечь целый ряд других значений. Во второй половине этой статьи рассматриваются алгоритмы регрессии, которые дают предсказанное числовое значение для некоторых выходных данных на основе известных входных данных.

Матрица путаницы

Матрица путаницы — это метод измерения точности алгоритма классификации. Легче всего это понять на примере: представьте, что алгоритм классификации обучен различать морковь, бананы и яблоки. Затем мы можем нарисовать таблицу результатов, полученных при тестировании:

Числа в матрице представляют собой количество тестов, которые дали конкретный результат: например, для 8 тестовых случаев, которые на самом деле были морковью, классификатор правильно посчитал, что 5 из них были морковью, и неправильно посчитал, что 3 из них были бананами.

Элементы на диагонали матрицы классифицированы правильно, а элементы вне диагонали классифицированы неправильно. Матрица предоставляет больше информации, чем просто доля правильно классифицированных результатов: в приведенном выше примере можно сделать вывод, что классификатор хорошо идентифицирует яблоки (только одно ложноположительное яблоко и два ложноотрицательных яблока против 11 правильно идентифицированных яблок). яблоки), в то время как классификация бананов гораздо менее точна. У классификатора были особые проблемы с различением моркови и бананов: соответствующая подматрица не выглядит особенно сильно заостренной по диагонали.

Целый ряд статистических данных может быть извлечен непосредственно из матрицы путаницы. Эти статистические данные обычно относятся к точности классификации одного класса (бинарная классификация): в данном примере бананов.

Положительное условие (P) — это количество настоящих бананов: здесь 6. Отрицательное условие (N) — это количество реальных не-бананов: здесь 21. Истинные положительные результаты (TP, здесь 3), истинно отрицательные результаты (TN, здесь 16), ложноположительные результаты (FP, 5 здесь) и ложноотрицательные результаты (FN, здесь 3) могут быть объединены для получения информации о точности классификатора. Некоторые конкретные примеры важных статистических данных:

Всю эту статистику можно сравнивать между классификаторами. О них также можно судить по их собственным достоинствам: все они имеют возможный диапазон [0,1], и требуемый стандарт может быть указан до тестирования.

В задачах, где имеется очень несбалансированное количество точек данных в разных классах (здесь у нас гораздо больше не-бананов, чем бананов), ни одна из приведенных выше статистических данных не является полностью надежной. Модифицированная форма показателя F1, известная как показатель Fβ, может использоваться для по-разному взвешивания точности и чувствительности, отдавая приоритет либо классификатору, идентифицирующему каждый банан (высокая чувствительность, β > 1), либо идентифицирующему только те бананы, в которых он точно уверен ( высокая точность, β‹1). Оценка Fβ может быть выражена как

но значение β (и, следовательно, относительную важность чувствительности и точности) необходимо установить заранее, и, следовательно, требуется знание относительных размеров классов.

Коэффициент корреляции Мэтьюза

Еще одна статистика, которую можно извлечь из матриц путаницы, — это коэффициент корреляции Мэтьюза. Опять же, эта мера в первую очередь предназначена для изучения бинарных классификаций, хотя она была расширена для охвата случая с несколькими классами. Для бинарной классификации коэффициент корреляции Мэтьюза определяется выражением

и определяет коэффициент корреляции, который является средним геометрическим коэффициентов регрессии задачи и ее двойственной. Он был описан как один из лучших способов инкапсулировать полную матрицу путаницы в одно число и не имеет проблем с системами с несбалансированным количеством точек данных.

Коэффициент корреляции Мэтьюса принимает значения в диапазоне [-1,1], где 1 означает идеальное предсказание, а -1 полностью неверное предсказание: 0 означает, что предсказание не лучше случайного. В приведенном выше примере коэффициент корреляции Мэтьюза составляет 0,932, что указывает на то, что, несмотря на довольно низкую точность, этот классификатор достаточно хорошо распознает бананы. Опять же, основным вариантом использования коэффициента корреляции Мэтьюза является сравнение между классификаторами.

ROC-кривая

Другой метод анализа точности алгоритма бинарной классификации — это кривая рабочих характеристик приемника (ROC).

Эта кривая отображает истинную положительную скорость

против ложноположительного показателя

при этом кривая строится параметрически как функция порога чувствительности. Примеры кривых ROC из биологического контекста показаны на рисунке: в любой точке одной из кривых можно считать чувствительность и (1-специфичность). ROC-кривая идеального классификатора проходила бы через верхний левый угол графика, а классификатор, который не лучше случайного, имел бы кривую по диагонали; большинство классификаторов, естественно, находятся где-то посередине.

Площадь под кривой ROC (AUC) является еще одним показателем точности классификатора: значение 1 указывает, что классификатор правильно идентифицирует каждую выборку, значение 0,5 указывает на то, что он не может различить два класса, а значение 0 указывает, что он получает каждую выборку неправильно (и классификатор должен быть инвертирован).

Коэффициент корреляции Пирсона

Коэффициент корреляции Пирсона — это показатель, предназначенный для использования при сравнении двух переменных. В контексте машинного обучения это могут быть целевые значения для алгоритма контролируемой регрессии и прогнозируемые значения. Сопоставляя одно с другим на точечной диаграмме, идеальный алгоритм машинного обучения дал бы прямую линию, проходящую через начало координат (y=x), с неточностями в результате, дающими разброс вокруг этой линии. Коэффициент корреляции Пирсона дает меру этого разброса. Коэффициент корреляции Пирсона для отношения между X и Y может быть выражен как

где σ(X) — стандартное отклонение переменной X, а σ(X,Y) — ковариация переменных X и Y, определяемые как σ(X)² = E[X²] — (E[X])², где E[X] — ожидаемое (среднее) значение X и σ(X,Y)=E[XY] — E[ X]E[Y]. Коэффициент корреляции Пирсона принимает значения в диапазоне [-1,1], где 1 и -1 означают идеальную корреляцию и антикорреляцию, а 0 указывает, что переменные некоррелированы.

Коэффициент корреляции Пирсона предназначен только для сравнений, где ожидается, что взаимосвязь между переменными будет линейной. Этого вполне достаточно для проверки точности алгоритма регрессии машинного обучения, но концепция коэффициента корреляции Пирсона может быть легко расширена для включения нелинейных отношений.

коэффициент r²

В случае линейной регрессии, как было установлено для точности алгоритма регрессии, коэффициент r² представляет собой просто квадрат коэффициента корреляции Пирсона. В более общем виде мы можем определить

где yᵢ — целевые значения, а fᵢ — прогнозируемые значения. Эта мера корреляции по методу наименьших квадратов принимает значения от 0 до 1, как и раньше, где 0 указывает на отсутствие корреляции, а 1 — идеальную корреляцию. Этот коэффициент корреляции также называют коэффициентом детерминации.

Существует несколько вариантов коэффициента r², в том числе модификации для устранения нежелательного свойства исходного коэффициента, ложно увеличивающегося при введении дополнительных точек данных. Однако базовый коэффициент r² остается популярным выбором для анализа точности моделей данных.

Выбор между коэффициентом корреляции Пирсона и коэффициентом r² при анализе точности алгоритма регрессии машинного обучения в некоторой степени зависит от личных предпочтений. Для линейной регрессии вся информация в коэффициенте r² содержится в коэффициенте корреляции Пирсона, хотя обратное неверно; но для анализа точности алгоритма машинного обучения, где ожидается линейная зависимость и маловероятны большие изменения оцениваемого градиента, обе меры дают эквивалентную информацию.

Среднеквадратическая ошибка

Среднеквадратическая ошибка (MSE) аналогична коэффициенту r² и используется для анализа точности алгоритма контролируемой регрессии. Используя те же обозначения, что и выше, MSE выражается как

то есть сумма квадратов ошибок, деленная на количество выборок для получения среднего значения. Для набора целевых значений с единичной дисперсией MSE стремится к 1-r²; но для общих (размерных) данных MSE является размерным (в то время как r² безразмерен), а величина MSE зависит от величины данных. Это делает MSE менее поддающимся передаче и более трудным для интерпретации, чем коэффициент r², без предварительного знания данных.

Относительная ошибка

Относительная ошибка — это еще одна мера точности алгоритма регрессии, который сочетает в себе функции как коэффициента r², так и MSE. Это выражается как

где |x| абсолютное значение x. Эта мера безразмерна, как и коэффициент r², но страдает от проблем, когда ожидаемый результат равен 0 (как это указано в знаменателе), и имеет смысл только для измерений в единицах шкалы отношений (где ноль является определенной нижней границей). на возможные значения), так как в противном случае сдвиг каждого выходного значения изменит измеренную относительную погрешность. Это делает относительную ошибку гораздо худшей мерой точности, чем r² в большинстве случаев.

Многомерная регрессия

Приведенные выше базовые выражения для коэффициента корреляции Пирсона, коэффициента r² и MSE предполагают, что в регрессии оптимизируется только одна целевая переменная. Однако некоторые более продвинутые алгоритмы машинного обучения способны одновременно отображать входные данные в несколько выходных. Самый очевидный способ измерить точность нескольких выходных данных вместе — просто суммировать среднеквадратичную ошибку каждого из них в отдельности; однако это имеет смысл только для выходных данных одинаковой размерности. Точно так же суммирование по относительной ошибке подходит только тогда, когда все переменные измеряются на шкалах отношений.

Однако существуют альтернативные меры, более подходящие для многомерной регрессии. Для размерностей данных D средняя относительная среднеквадратическая ошибка (aRRMSE) принимает форму

Точно так же можно записать многомерную версию коэффициента корреляции Пирсона

который также содержит информацию о корреляции и антикорреляции результата. Любое из этих выражений можно было бы возвести в квадрат, чтобы получить меру, подобную многомерному r², которую можно было бы более прямо записать как

Обратите внимание, что возведение в квадрат предыдущих мер не дает того же результата, что и эта версия многомерного r², и их нельзя сравнивать, хотя каждый из них по отдельности может служить хорошей мерой точности. Многомерный r², коэффициент корреляции Пирсона и aRRMSE одинаково взвешивают каждое измерение выходных данных; сумма по ним может быть взвешена, но это необходимо обосновать до начала анализа.

Выводы

Меры, используемые для оценки точности алгоритмов машинного обучения, можно разделить на два класса; те, что для классификации, и те, что для регрессии, как и сами алгоритмы. Матрица путаницы является основным объектом для анализа точности алгоритмов классификации; даже простую бинарную классификацию можно подробно проанализировать с помощью матрицы путаницы. Извлечь статистику из матрицы путаницы несложно, хотя выбор статистики для использования не так прост: простые меры, такие как чувствительность и точность, теряют много информации из матрицы путаницы, в то время как оценка F1 дает смещение в случаях с разными размерами классов. . Коэффициент корреляции Мэтьюса — это сбалансированная мера, которая дает хорошее представление о точности алгоритма классификации, хотя одно значение никогда не может отразить все детали матрицы точности в матрице путаницы.

Для алгоритмов регрессии выбор используемой статистики более прост; график рассеяния прогнозируемого значения по сравнению с фактическим значением можно интерпретировать с точки зрения эквивалентных коэффициентов корреляции Пирсона или r², и эти значения имеют абсолютные шкалы, которые можно использовать априори для установки требуемой точности. Среднеквадратическая ошибка, хотя и аналогична коэффициенту r², страдает от отсутствия переносимости между задачами, а относительная ошибка зависит от единиц измерения, а это означает, что предпочтительный выбор между коэффициентами Пирсона и r² является основным решением, которое необходимо принять, когда дело доходит до к выбору меры точности для алгоритмов регрессии машинного обучения.

Для задач многомерной регрессии коэффициент корреляции Пирсона может быть расширен для сбора информации о точности регрессии во всех выходных измерениях. Это (или, возможно, его квадрат), вероятно, является наиболее эффективной мерой точности многомерной регрессии, хотя, как и в случае с одним измерением, выбор между коэффициентами Пирсона и r² в основном является личным предпочтением.

О Intellegens

Intellegens — это ответвление Кембриджского университета с уникальным набором инструментов искусственного интеллекта (ИИ), который может обучать глубокие нейронные сети на разреженных или зашумленных данных. Их миссия — помочь своим клиентам ускорить внедрение инноваций, используя свои уникальные решения для глубокого обучения для извлечения ценной информации из существующих процессов и данных. Техника, созданная в Кавендишской лаборатории, воплощена в первом коммерческом продукте Intellegens — Alchemite™. Передовые алгоритмы глубокого обучения, на которых основан Alchemite™, могут видеть корреляции между всеми доступными параметрами, как входными, так и выходными, в фрагментированных, неструктурированных, поврежденных или даже зашумленных наборах данных. Результатом являются точные модели, которые могут предсказывать отсутствующие значения, находить ошибки и оптимизировать целевые свойства. Alchemite™, способный работать с данными, заполненными всего на 0,05 %, может решить проблемы с данными, недоступные для традиционных подходов к глубокому обучению. Решение Alchemite™, подходящее для развертывания в любом наборе числовых данных, предлагает новаторские решения в области поиска лекарств, передовых материалов, аналитики пациентов и профилактического обслуживания, что позволяет организациям преодолевать узкие места в анализе данных, сокращать время и деньги, затрачиваемые на исследования, и поддерживать лучшее, более быстрое принятие решений.

Для получения дополнительной информации посетите наш веб-сайт https://intellegens.ai

Твиттер: @intellegensai