Как выбрать различные типы линейных классификаторов?

Запутались в различных типах алгоритмов классификации, таких как логистическая регрессия, наивный байесовский классификатор, линейный классификатор опорных векторов (SVC) и машина опорных векторов с ядром (SVM)? Вы пытаетесь понять, что они из себя представляют и как выбрать один из них для своего сценария на высоком уровне, не зная слишком много математики? Если это так, эта статья может помочь.

Что такое линейный классификатор?

Линейный классификатор

Классификатор — это контролируемый алгоритм машинного обучения, используемый для решения задач классификации. Линейные классификаторы — это самые простые классификаторы, созданные линейными функциями для классификации наблюдений по разным категориям в линейных и нелинейных пространствах.

Различные типы линейных классификаторов

Наиболее распространенными бинарными линейными классификаторами являются логистическая регрессия, наивный байесовский классификатор и классификатор линейных опорных векторов (SVC); наиболее распространенными мультиклассовыми линейными классификаторами являются ядерные машины опорных векторов (SVM). Нажмите здесь, чтобы увидеть все наиболее распространенные модели контролируемого машинного обучения (классификаторы и регрессоры).

Как понять каждый линейный классификатор?

Понимание того, как работает каждый классификатор, поможет нам выбрать их лучше.

Что такое логистическая регрессия?

Логистическая регрессия — это классификатор для прогнозирования вероятности двоичных выходных значений. Он ограничивает выходное значение диапазоном от 0 до 1 и создает S-образную логистическую кривую. Обратите внимание, что, несмотря на то, что логистическая регрессия называется «регрессией», она используется для решения задач бинарной классификации, а не задач регрессии. Логистическая регрессия (классификатор) называется «регрессией», потому что лежащая в ее основе техника очень похожа на линейную регрессию (регрессор), но для прогнозирования классов.

Когда его использовать?

Используйте логистическую регрессию, если вы пытаетесь выполнить бинарную классификацию и хотите получить вероятность того, что входные данные принадлежат этому классу. Логистическая регрессия — это простой и эффективный классификатор для обучающих моделей. Это хороший кандидат для предсказания дискретных взаимосвязей, например, для предсказания того, является ли опухоль злокачественной или доброкачественной, с учетом некоторых измеренных свойств.Нажмите здесь, чтобы просмотреть полное пошаговое руководство по кодированию о том, как применять логистическую регрессию ( и SVC позже) для классификации злокачественного и доброкачественного рака молочной железы.

Что такое наивный байесовский классификатор?

Наивный байесовский классификатор также является вероятностным классификатором, решающим задачи классификации на основе теоремы Байеса. Например: основываясь на теореме Байеса, мы можем получить вероятность того, что данное слово является положительным или отрицательным, следующим образом:

Сравнивая эти две вероятности, мы можем отнести слово к более вероятному классу (положительному или отрицательному). Он называется наивным, потому что в нем есть простое предположение, что все функции независимы друг от друга, а это означает, что наличие одной функции в классе не влияет на наличие другой функции, что не выполняется во многих случаях использования.

Когда его использовать?

Наивный байесовский классификатор может быть хорошим выбором, если у вас относительно небольшой набор данных и вы хотите выполнить быструю классификацию. Наивный байесовский классификатор может давать довольно хорошие прогнозы, если выполняется предположение о независимости признаков; поэтому он также используется в обработке естественного языка (NLP) для классификации тональности предложений.

Что такое линейный классификатор опорных векторов (SVC)?

Цель классификатора линейных опорных векторов состоит в том, чтобы найти границу решения с максимальным запасом между классами. Поле — это расстояние между разделяющей границей и ближайшими к ней точками данных, а опорный вектор относится к точкам данных, близким к границе. Имея некоторые линейно разделимые входные данные, классификатор линейных опорных векторов может найти «наиболее подходящую» гиперплоскость для классификации. Преимущество линейного SVC заключается в том, что он ограничивает влияние выбросов, поскольку граница определяется только подмножеством точек данных, близких к границе.

Когда его использовать?

Если вы хотите делать быстрые прогнозы с большим набором данных, который является линейно разделимым, используйте линейный классификатор опорных векторов. Линейные опорные векторы подходят для разреженных данных и относительно легко интерпретируются. Если ваш набор данных не является линейно разделимым, вы можете использовать машину опорных векторов ядра (SVM).

Что такое Kernelized Support Vector Machine (SVM)?

Kernelized Support Vector Machine — это линейная модель, которую можно использовать для решения задач нелинейной классификации (и регрессии). Разные ядра соответствуют разным методам преобразования. В качестве классификатора он преобразует исходные входные данные из низкоразмерного пространства в новое многомерное пространство признаков для классификации данных. В многомерном пространстве исходные нелинейно разделимые данные могут быть разделены гиперплоскостью. После этого мы преобразуем данные и гиперплоскость обратно в исходное низкоразмерное пространство, чтобы решить задачу нелинейной классификации с помощью линейного классификатора.

Когда его использовать?

Если вы хотите выполнить линейную классификацию, но входные данные не являются линейно разделимыми, используйте машины опорных векторов с ядром. Кроме того, Kernelized SVM хорошо работают со многими различными типами наборов данных, такими как текстовые данные и данные изображений, поэтому попробуйте их, если хотите выполнить классификацию текста.

Вот другие статьи по теме:

Предложения по подаче заявок на Mlearning.ai
Как стать писателем на Mlearning.aimedium.com

Как выбрать различные типы линейных классификаторов?

Что такое линейный классификатор?

Линейный классификатор

Различные типы линейных классификаторов

Как понять каждый линейный классификатор?

Что такое логистическая регрессия?

Когда его использовать?

Что такое наивный байесовский классификатор?

Когда его использовать?

Что такое линейный классификатор опорных векторов (SVC)?

Когда его использовать?

Что такое Kernelized Support Vector Machine (SVM)?

Когда его использовать?

Вопросы по теме