В этой статье я хотел бы обсудить некоторые закулисные работы линейной регрессии и логистической регрессии как двух вводных алгоритмов машинного обучения. В частности, причина, по которой мы называем их просто линейными моделями, и то, как их происхождение связано друг с другом.

Для этого мы начнем с простого примера рекуррентной регрессии цен на жилье. Предположим, мы хотим предсказать стоимость домов в определенном регионе на основе размера. Первым шагом является сбор наших данных. Мы стучимся в каждую дверь и узнаём у жильцов площадь и цену. Обратите внимание, что может существовать несколько домов одинакового размера x с разными ценами. Какую цену следует прогнозировать для размера x? ну, интуитивно мы хотели бы иметь возможность прогнозировать цену, которая имеет наибольший смысл; тот, который в некотором смысле является средним или медианным значением этих цен.

Говоря более формально, давайте предположим, что собранные цены для размера x распределены вокруг среднего значения с определенной степенью вариации. Другими словами, цены распределяются по закону Гаусса. Это не надуманное предположение, поскольку большинство данных в нашем мире являются гауссовыми. В этом сценарии люди не будут слишком жадными, чтобы предлагать возмутительно высокую цену. Надеюсь, у них есть хорошее представление о том, сколько стоит дом такого размера в этом регионе, и они только немного подтолкнут сумму из-за финансового положения или немного снизят цену, чтобы уложиться в срок, чтобы продать недвижимость и съехать. :

Это помогает визуализировать это распределение на графике размер-цена следующим образом:

Смысл этих графиков в том, чтобы показать, что в каждой точке оси X мы хотели бы, чтобы наша модель предсказывала наиболее вероятную цену, то есть ожидаемое значение гауссовского распределения. Так что в следующий раз, когда кто-то спросит цену, скажем, дома площадью 6800 квадратных футов, мы дадим им не самый дорогой ценник или самую дешевую сделку, которую вам повезет, чтобы получить Люк, а самый разумный ценник. что дом такого размера обычно идет. А поскольку ожидаемое значение распределения Гаусса является его средним значением посередине, линия регрессии будет проходить через средние значения этих распределений, как показано ниже:

Мы бы решили эту проблему регрессии с помощью оценки максимального правдоподобия (обратитесь к этому для быстрого обновления), что в конечном итоге привело бы к следующему правилу обновления для параметров:

в которой функция h(x), являющаяся нашей моделью, равна:

Это был особый случай, когда распределения в каждой точке x были гауссовыми. Мы, несомненно, столкнемся с проблемами, когда есть распределение Бернулли, Пуассона, Гамма и т. д. Общая процедура та же самая; оценка максимального правдоподобия. Оказывается, есть группа дистрибутивов, для которых шаги решения задачи содержательно схожи. Например, решение той же задачи для распределения Бернулли (бинарная классификация) приводит к минимизации следующей функции стоимости:

в которой модель h(x) была бы:

Обратите внимание, что хотя h(x)для этого двоичного случая не совпадает с гауссовским случаем, единственное отличие состоит в том, что h(x) в гауссовском случае проходит через другой функцию, а именно сигмовидную, чтобы она соответствовала распределению Бернулли:

Люди поняли, что его паттерн повторяется и для Пуассона, и для Гаммы, и для ряда других распределений. Правило обновления всегда заканчивается следующим образом:

Где h(x) — это постобработанная версия гауссова h(x), прошедшая через другую функцию g, чтобы сделать ее подходящей для соответствующий дистрибутив. Эта функция g называется канонической функцией отклика. Ранее для распределения Бернулли функция сигмоида была взята из ниоткуда, чтобы выразить g. Процедура GLM позволяет нам получить каноническую функцию отклика.

Таким образом, эти наблюдения могут заинтриговать нас, чтобы мы искали более общую стратегию, чтобы найти модель для этого семейства распределений и избежать слепого повторения одного и того же процесса для каждого распределения в отдельности. Это помогает, потому что если есть новая проблема с новым распределением, с которым мы никогда раньше не сталкивались, но можем проверить, принадлежит ли оно тому же семейству, мы можем просто применить стратегию, чтобы найти нашу модель (гипотеза h(x)), функция стоимости, которую нам нужно минимизировать, и т. д.

Итак, давайте узнаем об этой семье. Какие дистрибутивы он включает? как мы можем проверить, принадлежит ли некоторая вероятность этому семейству или нет?

Экспоненциальное семейное распределение

Экспоненциальные семейные распределения — это распределения вероятностей, которые можно представить в следующем формате:

Это семейство дистрибутивов, о котором мы говорили все это время. В этих обозначениях η называется естественным параметром (каноническим параметром) распределения. T(y) называется достаточной статистикой, b(y) называется «базовой мерой», а a(η)относится в качестве функции раздела журнала. Термин η^T (простите за корявую запись) на самом деле является транспонированием η и не имеет ничего общего с T(y). Стоит отметить, что обычно η оказывается скаляром и по большей части T(y)=y.

Экспоненциальные семейные распределения обладают некоторыми хорошими свойствами, такими как:

И тот факт, что log (p; η) вогнут, и поэтому мы обязательно найдем локальный максимум для с помощью нашего подхода к оценке максимального правдоподобия. Эта информация полезна, однако мы не будем идти по длинному пути MLE, чтобы найти модели для этих дистрибутивов.

Набор b(y), T(y) и a(η)определяет некоторый элемент из семейства, параметризованного η, и изменение этого параметра η приводит к определенному распределению этого члена. Например, вскоре мы увидим, что набор b(y), T(y) и a(η) приводит к Формула распределения Гаусса, в которой изменение значения η было бы эквивалентно изменению среднего значения распределения Гаусса.

Теперь выберите интересующее вас распределение вероятностей, попробуйте и посмотрите, сможете ли вы косметически преобразовать его в приведенное выше уравнение, и если вы сможете, вы получите распределение из экспоненциального семейства. Давайте проиллюстрируем, почему распределение Гаусса принадлежит к этому семейству. Мы знаем уравнение для распределения по Гауссу как (Для простоты предполагается, что дисперсия здесь равна 1. Однако вы можете включить параметр дисперсии в уравнение для практики):

Мы можем переписать это так:

Поэтому, если мы сопоставим это уравнение с уравнением экспоненциального семейства, со следующими назначениями можно предположить, что распределение Гаусса является членом экспоненциального семейства:

Этого достаточно, чтобы доказать, что распределение Гаусса является членом экспоненциального семейства. В качестве другого примера возьмем распределение Бернулли. Мы знаем уравнение Бернулли:

Преобразовав приведенное выше уравнение, мы можем написать:

Таким образом, при следующем наборе назначений распределение Бернулли является членом экспоненциального семейства:

Точно так же членство любого другого дистрибутива может быть проверено на основе того, может ли оно быть записано в общем формате экспоненциального семейства.

Моделирование экспоненциального семейства

Линейная регрессия и логистическая регрессия — это два частных случая обобщенных линейных моделей. Эти модели основаны на экспоненциальных семейных распределениях, и, поскольку все они подпадают под одну категорию, существует общая стратегия их получения.

Предположим, что распределение, над моделированием которого вы работаете, является экспоненциальным членом семейства. Следующие два предположения избавляют нас от процедуры максимального правдоподобия или каких-либо предположений о том, какой должна быть функция h(x) длянадлежащего моделирования проблемы.

  1. Наша цель состоит в том, чтобы модель предсказывала ожидаемое значение в каждой точке (h(x) = E[y|x]) . Например, как обсуждалось в предыдущем разделе, мы хотели бы предсказать наиболее разумную цену за дом площадью 6800 квадратных футов, а не невероятно дешевую или дорогую сделку.

2. В качестве варианта дизайна мы устанавливаем η= θx как способ связать два параметра распределения η и θ, чтобы мы могли перевести Е[у|х; η]в E[y|x; θ] и наоборот.

Повторим еще раз: общая идея состоит в том, чтобы выяснить, может ли распределение данных быть выражено как член экспоненциального семейства. Если это так, то следование двум вышеприведенным допущениям предложит модель для прогнозирования.

В качестве примера, давайте выведем модель линейной регрессии с помощью этого подхода. Мы предположили, что наши данные для регрессии являются гауссовыми, поэтому первым шагом будет проверка того, что гауссовское распределение является членом экспоненциального семейства, что мы сделали выше со следующими заданиями:

Согласно (1) предполагается оценить E[y|x; θ]. Поэтому:

Выше мы использовали тот факт, что ожидаемое значение распределения Гаусса N(μ, σ²) равно его среднему значению μ.

В качестве другого примера, давайте выведем логистическую регрессию. Мы знаем, что данные (вероятность y при условии x) принадлежат Бернулли, а Бернулли, как показано выше, является экспоненциальным членом семейства со следующими назначениями:

Таким образом, мы можем просто применить нашу стратегию GLM и получить:

Обратите внимание, что здесь сигмовидная функция выводится для представления канонической функции отклика. Точно так же модели прогнозирования (или, скорее, каноническая функция отклика g) для пуассоновского, гамма-распределения и других распределений будут просто визуализированы как продукт этого подхода.

  1. Было упомянуто, что наша цель состоит в том, чтобы предсказать E[y|x]в каждой точке, но на самом деле мы бы предсказали ожидаемое значение T(y), однакопоскольку обычно оно равно y и более интуитивно понятно использовать y, я решил ничего не упоминать. Похоже на ТМИ.

Вот оно, GLM. Мы рассмотрели экспоненциальные семейные распределения, обобщенные линейные модели и то, как использовать этот метод для прогнозирования различных распределений.

Пожалуйста, поделитесь своими вопросами и мыслями.

В заключение я хотел бы поблагодарить CS229 из Стэнфордского университета за то, что они любезно предоставили в открытый доступ большую часть своего материала.