Запутались в различных типах алгоритмов классификации, таких как логистическая регрессия, наивный байесовский классификатор, линейный классификатор опорных векторов (SVC) и машина опорных векторов с ядром (SVM)? Вы пытаетесь понять, что они из себя представляют и как выбрать один из них для своего сценария на высоком уровне, не зная слишком много математики? Если это так, эта статья может помочь.

Что такое линейный классификатор?

Линейный классификатор

Классификатор — это контролируемый алгоритм машинного обучения, используемый для решения задач классификации. Линейные классификаторы — это самые простые классификаторы, созданные линейными функциями для классификации наблюдений по разным категориям в линейных и нелинейных пространствах.

Различные типы линейных классификаторов

Наиболее распространенными бинарными линейными классификаторами являются логистическая регрессия, наивный байесовский классификатор и классификатор линейных опорных векторов (SVC); наиболее распространенными мультиклассовыми линейными классификаторами являются ядерные машины опорных векторов (SVM). Нажмите здесь, чтобы увидеть все наиболее распространенные модели контролируемого машинного обучения (классификаторы и регрессоры).

Как понять каждый линейный классификатор?

Понимание того, как работает каждый классификатор, поможет нам выбрать их лучше.

Что такое логистическая регрессия?

Логистическая регрессия — это классификатор для прогнозирования вероятности двоичных выходных значений. Он ограничивает выходное значение диапазоном от 0 до 1 и создает S-образную логистическую кривую. Обратите внимание, что, несмотря на то, что логистическая регрессия называется «регрессией», она используется для решения задач бинарной классификации, а не задач регрессии. Логистическая регрессия (классификатор) называется «регрессией», потому что лежащая в ее основе техника очень похожа на линейную регрессию (регрессор), но для прогнозирования классов.

Когда его использовать?

Используйте логистическую регрессию, если вы пытаетесь выполнить бинарную классификацию и хотите получить вероятность того, что входные данные принадлежат этому классу. Логистическая регрессия — это простой и эффективный классификатор для обучающих моделей. Это хороший кандидат для предсказания дискретных взаимосвязей, например, для предсказания того, является ли опухоль злокачественной или доброкачественной, с учетом некоторых измеренных свойств.Нажмите здесь, чтобы просмотреть полное пошаговое руководство по кодированию о том, как применять логистическую регрессию ( и SVC позже) для классификации злокачественного и доброкачественного рака молочной железы.

Что такое наивный байесовский классификатор?

Наивный байесовский классификатор также является вероятностным классификатором, решающим задачи классификации на основе теоремы Байеса. Например: основываясь на теореме Байеса, мы можем получить вероятность того, что данное слово является положительным или отрицательным, следующим образом:

Сравнивая эти две вероятности, мы можем отнести слово к более вероятному классу (положительному или отрицательному). Он называется наивным, потому что в нем есть простое предположение, что все функции независимы друг от друга, а это означает, что наличие одной функции в классе не влияет на наличие другой функции, что не выполняется во многих случаях использования.

Когда его использовать?

Наивный байесовский классификатор может быть хорошим выбором, если у вас относительно небольшой набор данных и вы хотите выполнить быструю классификацию. Наивный байесовский классификатор может давать довольно хорошие прогнозы, если выполняется предположение о независимости признаков; поэтому он также используется в обработке естественного языка (NLP) для классификации тональности предложений.

Что такое линейный классификатор опорных векторов (SVC)?

Цель классификатора линейных опорных векторов состоит в том, чтобы найти границу решения с максимальным запасом между классами. Поле — это расстояние между разделяющей границей и ближайшими к ней точками данных, а опорный вектор относится к точкам данных, близким к границе. Имея некоторые линейно разделимые входные данные, классификатор линейных опорных векторов может найти «наиболее подходящую» гиперплоскость для классификации. Преимущество линейного SVC заключается в том, что он ограничивает влияние выбросов, поскольку граница определяется только подмножеством точек данных, близких к границе.

Когда его использовать?

Если вы хотите делать быстрые прогнозы с большим набором данных, который является линейно разделимым, используйте линейный классификатор опорных векторов. Линейные опорные векторы подходят для разреженных данных и относительно легко интерпретируются. Если ваш набор данных не является линейно разделимым, вы можете использовать машину опорных векторов ядра (SVM).

Что такое Kernelized Support Vector Machine (SVM)?

Kernelized Support Vector Machine — это линейная модель, которую можно использовать для решения задач нелинейной классификации (и регрессии). Разные ядра соответствуют разным методам преобразования. В качестве классификатора он преобразует исходные входные данные из низкоразмерного пространства в новое многомерное пространство признаков для классификации данных. В многомерном пространстве исходные нелинейно разделимые данные могут быть разделены гиперплоскостью. После этого мы преобразуем данные и гиперплоскость обратно в исходное низкоразмерное пространство, чтобы решить задачу нелинейной классификации с помощью линейного классификатора.

Когда его использовать?

Если вы хотите выполнить линейную классификацию, но входные данные не являются линейно разделимыми, используйте машины опорных векторов с ядром. Кроме того, Kernelized SVM хорошо работают со многими различными типами наборов данных, такими как текстовые данные и данные изображений, поэтому попробуйте их, если хотите выполнить классификацию текста.

Вот другие статьи по теме: