Запутались в различных типах алгоритмов классификации, таких как логистическая регрессия, наивный байесовский классификатор, линейный классификатор опорных векторов (SVC) и машина опорных векторов с ядром (SVM)? Вы пытаетесь понять, что они из себя представляют и как выбрать один из них для своего сценария на высоком уровне, не зная слишком много математики? Если это так, эта статья может помочь.
Что такое линейный классификатор?
Линейный классификатор
Классификатор — это контролируемый алгоритм машинного обучения, используемый для решения задач классификации. Линейные классификаторы — это самые простые классификаторы, созданные линейными функциями для классификации наблюдений по разным категориям в линейных и нелинейных пространствах.
Различные типы линейных классификаторов
Наиболее распространенными бинарными линейными классификаторами являются логистическая регрессия, наивный байесовский классификатор и классификатор линейных опорных векторов (SVC); наиболее распространенными мультиклассовыми линейными классификаторами являются ядерные машины опорных векторов (SVM). Нажмите здесь, чтобы увидеть все наиболее распространенные модели контролируемого машинного обучения (классификаторы и регрессоры).
Как понять каждый линейный классификатор?
Понимание того, как работает каждый классификатор, поможет нам выбрать их лучше.
Что такое логистическая регрессия?
Логистическая регрессия — это классификатор для прогнозирования вероятности двоичных выходных значений. Он ограничивает выходное значение диапазоном от 0 до 1 и создает S-образную логистическую кривую. Обратите внимание, что, несмотря на то, что логистическая регрессия называется «регрессией», она используется для решения задач бинарной классификации, а не задач регрессии. Логистическая регрессия (классификатор) называется «регрессией», потому что лежащая в ее основе техника очень похожа на линейную регрессию (регрессор), но для прогнозирования классов.
Когда его использовать?
Используйте логистическую регрессию, если вы пытаетесь выполнить бинарную классификацию и хотите получить вероятность того, что входные данные принадлежат этому классу. Логистическая регрессия — это простой и эффективный классификатор для обучающих моделей. Это хороший кандидат для предсказания дискретных взаимосвязей, например, для предсказания того, является ли опухоль злокачественной или доброкачественной, с учетом некоторых измеренных свойств.Нажмите здесь, чтобы просмотреть полное пошаговое руководство по кодированию о том, как применять логистическую регрессию ( и SVC позже) для классификации злокачественного и доброкачественного рака молочной железы.
Что такое наивный байесовский классификатор?
Наивный байесовский классификатор также является вероятностным классификатором, решающим задачи классификации на основе теоремы Байеса. Например: основываясь на теореме Байеса, мы можем получить вероятность того, что данное слово является положительным или отрицательным, следующим образом:
Сравнивая эти две вероятности, мы можем отнести слово к более вероятному классу (положительному или отрицательному). Он называется наивным, потому что в нем есть простое предположение, что все функции независимы друг от друга, а это означает, что наличие одной функции в классе не влияет на наличие другой функции, что не выполняется во многих случаях использования.
Когда его использовать?
Наивный байесовский классификатор может быть хорошим выбором, если у вас относительно небольшой набор данных и вы хотите выполнить быструю классификацию. Наивный байесовский классификатор может давать довольно хорошие прогнозы, если выполняется предположение о независимости признаков; поэтому он также используется в обработке естественного языка (NLP) для классификации тональности предложений.
Что такое линейный классификатор опорных векторов (SVC)?
Цель классификатора линейных опорных векторов состоит в том, чтобы найти границу решения с максимальным запасом между классами. Поле — это расстояние между разделяющей границей и ближайшими к ней точками данных, а опорный вектор относится к точкам данных, близким к границе. Имея некоторые линейно разделимые входные данные, классификатор линейных опорных векторов может найти «наиболее подходящую» гиперплоскость для классификации. Преимущество линейного SVC заключается в том, что он ограничивает влияние выбросов, поскольку граница определяется только подмножеством точек данных, близких к границе.
Когда его использовать?
Если вы хотите делать быстрые прогнозы с большим набором данных, который является линейно разделимым, используйте линейный классификатор опорных векторов. Линейные опорные векторы подходят для разреженных данных и относительно легко интерпретируются. Если ваш набор данных не является линейно разделимым, вы можете использовать машину опорных векторов ядра (SVM).
Что такое Kernelized Support Vector Machine (SVM)?
Kernelized Support Vector Machine — это линейная модель, которую можно использовать для решения задач нелинейной классификации (и регрессии). Разные ядра соответствуют разным методам преобразования. В качестве классификатора он преобразует исходные входные данные из низкоразмерного пространства в новое многомерное пространство признаков для классификации данных. В многомерном пространстве исходные нелинейно разделимые данные могут быть разделены гиперплоскостью. После этого мы преобразуем данные и гиперплоскость обратно в исходное низкоразмерное пространство, чтобы решить задачу нелинейной классификации с помощью линейного классификатора.
Когда его использовать?
Если вы хотите выполнить линейную классификацию, но входные данные не являются линейно разделимыми, используйте машины опорных векторов с ядром. Кроме того, Kernelized SVM хорошо работают со многими различными типами наборов данных, такими как текстовые данные и данные изображений, поэтому попробуйте их, если хотите выполнить классификацию текста.
Вот другие статьи по теме:
- Как выбрать различные типы линейной регрессии?
- Классификация рака молочной железы с использованием SVC и классификаторов логистической регрессии
- На рисунке показаны наиболее распространенные модели контролируемого машинного обучения