Оценка производительности регрессии — это набор статистических показателей, используемых для оценки точности и эффективности регрессионного анализа. В этом посте из этой серии (предыдущие посты были как подогнать линию и как интерпретировать вывод регрессии) я попытаюсь объяснить метрики оценки регрессии (SSR, MSE, R² и скорректированный R²).

Хорошая модель регрессии может более точно предсказать значения зависимой переменной, которую мы хотим предсказать. Оценка производительности помогает нам понять, насколько хорошо модель может предсказывать. Более того, при выборе между моделями регрессии оценка производительности помогает нам определить, какая из различных моделей работает лучше. Сравнивая модели, мы можем выбрать или улучшить лучшую модель. Оценка производительности также помогает выявить слабые стороны модели. Определив области с неверными прогнозами или высокими ошибками, мы можем внести изменения для улучшения модели. Например, может случиться так, что используются неправильные функции или необходимо исправить аномалии в наборе данных. Учитывая все обстоятельства, производительность модели должна быть оценена.

Сумма квадратов остатков

Первый способ оценить производительность регрессионной модели — вычислить сумму квадратов остатков (SSR). На первом этапе расчета SSR нам необходимо рассчитать остатки. Остаток рассчитывается следующим образом:

С помощью этой формулы мы можем вычислить невязку для наблюдения. Меньший остаток означает лучшую модель. Таким образом, суммирование остатков каждого наблюдения может показаться хорошим способом оценить производительность регрессионной модели. Однако суммирование приведенных ниже остатков аннулирует приведенные выше остатки.

Следовательно, лучше возводить в квадрат остатки перед их суммированием, что является SSR. Следующая формула показывает, как рассчитывается SSR:

где n — общее количество наблюдений.

ПРИМЕЧАНИЕ. Мы рассчитываем вертикальное расстояние до линии.

SSR — это хороший способ оценить производительность регрессионной модели, однако он зависит от числа наблюдений в наборе данных. Поскольку мы суммируем все квадраты различий между наблюдаемыми и прогнозируемыми значениями, чем больше невязка, тем выше SSR. Другими словами, модель с большим количеством наблюдений будет иметь больше остатков. Таким образом, мы можем прийти к выводу, что модель с большим количеством наблюдений хуже. Это может быть не так.

Среднеквадратическая ошибка

Как я уже сказал, модель с большим количеством наблюдений будет иметь больше остатков. Есть ли способ справиться с этой проблемой? Конечно! Нам нужно рассчитать среднеквадратичную ошибку (MSE). MSE — это просто среднее значение SSR. Следующая формула показывает, как рассчитывается MSE:

or

Как я уже говорил ранее, SSR увеличивается, когда в модели больше наблюдений. Однако MSE может увеличиваться или уменьшаться в зависимости только от среднего остатка. Поэтому лучше оценить производительность модели.

Тем не менее, есть некоторые проблемы с MSE. Во-первых, MSE сильно наказывает большие ошибки из-за квадрата члена. Это делает его чувствительным к выбросам, так как даже один выброс может значительно увеличить общую ошибку. В ситуациях, когда присутствуют выбросы, MSE может неточно отражать производительность модели. Кроме того, возведение в квадрат ошибок в MSE усиливает влияние больших ошибок на общую метрику. Это означает, что на производительность модели сильно влияют несколько наблюдений с существенными отклонениями, что может быть нежелательно в определенных сценариях.

Если есть проблема; есть или будет решение. Это точно. R в квадрате — это решение как проблем SSR, так и MSE. Это не зависит от размера или масштаба набора данных.

В основном объяснении R в квадрате рассчитывается путем сравнения SSR или MSE со средним значением зависимой переменной. Таким образом, нам нужно среднее значение зависимой переменной. На следующем рисунке это показано:

Как и на иллюстрации, в качестве первого шага мы вычисляем SSR или MSE вокруг синей линии (среднее значение расходов). На втором этапе мы вычисляем SSE или MSE вокруг модели. Затем мы сравним эти два. Таким образом, R-квадрат показывает нам, насколько наш прогноз лучше, чем среднее значение зависимой переменной. Следующая формула показывает, как рассчитывается R²:

Однако есть некоторые проблемы с $R²$. Прежде всего, R в квадрате чувствителен к выборке, используемой для оценки модели. Различные выборки могут давать разные значения R-квадрата, что затрудняет обобщение характеристик модели на новые данные. Кроме того, R в квадрате не может различить модели с линейными отношениями и модели с нелинейными отношениями. Даже если модель имеет относительно высокое значение R-квадрата, это не гарантирует, что модель отражает истинную базовую функциональную форму данных. Наконец, R в квадрате имеет тенденцию к увеличению по мере увеличения количества независимых переменных (предикторов) в модели, даже если эти предикторы не имеют какой-либо значимой связи с зависимой переменной. Это может ввести в заблуждение, поскольку добавление нерелевантных предикторов может искусственно завышать значение R в квадрате, создавая ложное представление о производительности модели.

Скорректированный R²

Как упоминалось ранее, R-квадрат всегда увеличивается с увеличением числа независимых переменных, и это может отражать проблему переобучения. Чтобы избежать такой ситуации, добавляется поправочный коэффициент для исправления переобучения с учетом фактического увеличения объяснительной способности модели. Это называется скорректированным R-квадратом. Следующая формула показывает, как рассчитывается скорректированный $R²$:

где
R² — стандартное значение R²,
n — номер наблюдения в модели,
k — предикторы модели.

Скорректированный R-квадрат может уменьшиться, если в модель добавить больше независимых переменных, что указывает на то, что модель менее объяснительна. Таким образом, скорректированный R-квадрат используется для лучшей оценки объяснительной способности модели с учетом сложности модели и переобучения. Кроме того, при сравнении двух или более моделей (моделей с разными предикторами) скорректированный R-квадрат является более точным показателем, чем R-квадрат.

Как всегда:

«На случай, если я тебя не увижу, добрый день, добрый вечер и спокойной ночи!»