Что такое логистическая регрессия?

Логистическая регрессия — это статистическая модель, используемая для анализа связи между бинарной зависимой переменной (т. е. переменной, которая принимает одно из двух значений) и одной или несколькими независимыми переменными. Модель может отвечать на такие вопросы, как следующий вопрос:

Откажется ли клиент от страхового плана?

Загружает ли пользователь приложение?

Модель логистической регрессии оценивает вероятность переменной результата (т. е. загрузки приложения) на основе значений независимых переменных. Эта вероятность представлена ​​переменной pi и моделируется с помощью логистической функции, которая гарантирует, что оценочные вероятности всегда находятся в диапазоне от 0 до 1. Возможность будет откладываться для каждого наблюдения. Структура логистической регрессии аналогична множественной регрессии:

transformation(pi) = β0 + β1x1,I + β2x2,i + ··· + βkxk,i

Логит-преобразование определяется как натуральный логарифм отношения шансов, где отношение шансов — это вероятность успеха (т. е. загрузки приложения), деленная на вероятность отказа (т. е. отсутствие загрузки приложения). Математически логит-преобразование выражается как:

logit(pi) = log (pi / (1 — pi))

Логит-преобразование отображает диапазон возможных вероятностей, равный [0, 1], в диапазон возможных логарифмических шансов, равный (-∞, ∞). Это позволяет нам моделировать логарифмические шансы как линейную функцию независимых переменных, используя стандартные методы регрессии.

Преобразовав число пи с помощью логит-преобразования, мы можем связать его с независимыми переменными с помощью линейного уравнения:

logit(pi) = β0 + β1x1 + β2x2 + … + βpxp

где β0, β1, β2, …, βp — коэффициенты, оцениваемые по модели логистической регрессии, а x1, x2, …, xp — значения независимых переменных для конкретного наблюдения. Модель логистической регрессии оценивает значения этих коэффициентов, чтобы определить влияние каждой независимой переменной на логарифмическую вероятность загрузки приложения.

Мы хотим выбрать преобразование в уравнении, которое имеет практический и математический смысл. Например, нам нужно преобразование, которое делает диапазон возможностей в левой части уравнения равным диапазону возможностей в правой части; если бы для этого уравнения не было преобразования, левая часть могла бы принимать значения только между 0 и 1, а правая часть могла бы принимать значения за пределами этого диапазона. Распространенным преобразованием для числа пи является логит-преобразование:

logit(pi) = log (pi / (1 — pi))

Как построить модель логистической регрессии с помощью Python?

1. Использование модуля statamodels:

Набор данных регистрирует ВВП и индекс фондового рынка за каждый квартал. Наша целевая переменная — «Спад». «1» означает рецессию, а «0» означает, что рецессии нет.

2. Используя модуль sklearn:

Набор данных записывает информацию о клиентах от мобильной компании. Мы будем использовать эту информацию, чтобы предсказать, будет ли клиент отказываться от мобильного плана.

После того, как мы создадим фиктивные переменные и отбросим сильно коррелированные переменные, мы разделим обучающую и тестовую выборки.

Точность модели логистической регрессии составляет примерно 0,80.