Что такое логистическая регрессия?
Логистическая регрессия — это статистическая модель, используемая для анализа связи между бинарной зависимой переменной (т. е. переменной, которая принимает одно из двух значений) и одной или несколькими независимыми переменными. Модель может отвечать на такие вопросы, как следующий вопрос:
Откажется ли клиент от страхового плана?
Загружает ли пользователь приложение?
Модель логистической регрессии оценивает вероятность переменной результата (т. е. загрузки приложения) на основе значений независимых переменных. Эта вероятность представлена переменной pi и моделируется с помощью логистической функции, которая гарантирует, что оценочные вероятности всегда находятся в диапазоне от 0 до 1. Возможность будет откладываться для каждого наблюдения. Структура логистической регрессии аналогична множественной регрессии:
transformation(pi) = β0 + β1x1,I + β2x2,i + ··· + βkxk,i
Логит-преобразование определяется как натуральный логарифм отношения шансов, где отношение шансов — это вероятность успеха (т. е. загрузки приложения), деленная на вероятность отказа (т. е. отсутствие загрузки приложения). Математически логит-преобразование выражается как:
logit(pi) = log (pi / (1 — pi))
Логит-преобразование отображает диапазон возможных вероятностей, равный [0, 1], в диапазон возможных логарифмических шансов, равный (-∞, ∞). Это позволяет нам моделировать логарифмические шансы как линейную функцию независимых переменных, используя стандартные методы регрессии.
Преобразовав число пи с помощью логит-преобразования, мы можем связать его с независимыми переменными с помощью линейного уравнения:
logit(pi) = β0 + β1x1 + β2x2 + … + βpxp
где β0, β1, β2, …, βp — коэффициенты, оцениваемые по модели логистической регрессии, а x1, x2, …, xp — значения независимых переменных для конкретного наблюдения. Модель логистической регрессии оценивает значения этих коэффициентов, чтобы определить влияние каждой независимой переменной на логарифмическую вероятность загрузки приложения.
Мы хотим выбрать преобразование в уравнении, которое имеет практический и математический смысл. Например, нам нужно преобразование, которое делает диапазон возможностей в левой части уравнения равным диапазону возможностей в правой части; если бы для этого уравнения не было преобразования, левая часть могла бы принимать значения только между 0 и 1, а правая часть могла бы принимать значения за пределами этого диапазона. Распространенным преобразованием для числа пи является логит-преобразование:
logit(pi) = log (pi / (1 — pi))
Как построить модель логистической регрессии с помощью Python?
1. Использование модуля statamodels:
Набор данных регистрирует ВВП и индекс фондового рынка за каждый квартал. Наша целевая переменная — «Спад». «1» означает рецессию, а «0» означает, что рецессии нет.
2. Используя модуль sklearn:
Набор данных записывает информацию о клиентах от мобильной компании. Мы будем использовать эту информацию, чтобы предсказать, будет ли клиент отказываться от мобильного плана.
После того, как мы создадим фиктивные переменные и отбросим сильно коррелированные переменные, мы разделим обучающую и тестовую выборки.
Точность модели логистической регрессии составляет примерно 0,80.