В моем предыдущем блоге я обсуждал, как преобразовать необработанные данные в значимую информацию, чтобы извлечь что-то полезное. Теперь у нас есть готовый набор данных, и его можно использовать для прогнозирования, применяя различные методы машинного обучения.

Регрессионный анализ позволяет нам исследовать взаимосвязь между двумя или более интересующими нас переменными. Процесс выполнения регрессии позволяет уверенно определить, какие факторы имеют наибольшее значение, какие факторы можно игнорировать и как эти факторы влияют друг на друга.

Чтобы полностью понять регрессионный анализ, необходимо знать следующие термины:

  • Зависимая переменная. Это основной фактор, который вы пытаетесь понять или предсказать.
  • Независимые переменные. Это факторы, которые, как вы предполагаете, влияют на вашу зависимую переменную.

Теперь давайте разберемся с наиболее часто используемой регрессией.

  1. Линейная и многомерная регрессия

Линейная регрессия устанавливает взаимосвязь между зависимой переменной (Y) и одной или несколькими независимыми переменными (X) с помощью наиболее подходящей прямой линии (наилучшее Подходящая линия — это та, для которой общая ошибка прогноза (все точки данных) минимальна).

Оно представлено уравнением Y = mx + b,где m — наклон, x — независимая переменная, b — точка пересечения. Мы можем использовать метод обычных наименьших квадратов (OLS), чтобы найти наилучшее пересечение линии (b) и наклон (m).

Разница между простой линейной регрессией и многомерной регрессией заключается в том, что многомерная регрессия имеет (>1) независимые переменные, тогда как простая линейная регрессия имеет только 1 независимую переменную.

2. Логистическая регрессия

Первое, что нам нужно понять о логистической регрессии, это то, что у нее есть функция гипотезы, которая может выдавать значения в пределах от 0 до 1.

Целью логистической регрессии является моделирование вероятности события, которое происходит в зависимости от значений независимых переменных. Если говорить проще, то либо одно, либо другое.

Простым примером проблемы логистической регрессии может быть алгоритм, используемый для обнаружения рака, который использует изображение скрининга в качестве входных данных и должен сказать, есть ли у пациента рак (1) или нет (0).

Вы можете спросить себя, в чем разница между линейной и логистической регрессией. Итак, логистическая регрессия всегда дает дискретный результат, тогда как линейная регрессия дает непрерывный результат. Простым примером непрерывного результата может быть модель, предсказывающая цену дома, тогда как дискретный результат всегда будет тем или иным.

3. Полиномиальная регрессия

Это форма регрессионного анализа, в которой взаимосвязь между независимой переменной x и зависимой переменной y моделируется как полином n-й степени. в х.

Если наши данные нелинейны, мы также можем предсказать, используя наши линейные модели. Это можно сделать, добавив новый набор функций в наш набор данных, который может быть n-й степенью наших исходных функций набора данных. Полиномиальная регрессия может привести к переоснащению (модель хорошо работает только на увиденном/обученном наборе данных).

4. Ридж-регрессия

«Что такое гребенчатая регрессия?». Самый простой способ ответить на вопрос — «вариант линейной регрессии». Этот метод используется, когда данные страдают мультиколлинеарностью (независимые переменные сильно коррелированы).

Выше мы видели уравнение линейной регрессии. Помните? Его можно представить в виде: Y = mx + b

Это уравнение также имеет погрешность. Полное уравнение становится:

Y = mx+b+e,где e(термин ошибки) — это значение, необходимое для исправления ошибки прогнозирования между наблюдаемым и прогнозируемым значением.

5. Лассо-регрессия

LASSO или Регрессия с наименьшим абсолютным сокращением и оператором выбора также является регуляризованной версией линейной регрессии.

Ридж-регрессия использует половину квадрата нормы L2, тогда как регрессия Лассо использует норму L1.

6. Эластичная чистая регрессия

Эластичная сеть – это регуляризованный регрессионный метод, который линейно комбинирует штрафы L1 и L2 методов лассо и гребня. Он управляется соотношением компонентов r.

Если r=0, то эластичная сеть эквивалентна гребневой регрессии.

Если r=1, то эластичная сеть эквивалентна регрессии Лассо.

В случае возникновения вопросов вы можете связаться со мной по адресу [email protected].