(Часть -1 Реализация линейной регрессии)

В последнем посте я упомянул два термина Прогнозирование и Статистический вывод на простом примере. Я также упомянул, когда и почему нам может понадобиться прогнозировать будущие результаты? Мы не астрологи и не читатели карт Таро, тогда как мы можем узнать будущее. В этом вам поможет статистика. Чего ждать?? Математика ?? Статистика ?? Да !! В частности, дифференцирование, логарифмы и линейные уравнения играют ключевую роль во всех алгоритмах машинного обучения. Не волнуйтесь, если вы все это забыли, вы можете найти действительно хорошее руководство в Khan Academy, чтобы освежить свои математические и статистические данные.

Можно спросить, как мы можем предсказать будущие ценности? Как решить, какой алгоритм лучше всего подходит для предсказания результатов? Достаточно ли одного алгоритма ?? У всего работает один и тот же алгоритм ?? Выбор алгоритма похож на выбор одежды из гардероба. У вас есть разная одежда для разных случаев. Вы бы надели свитер в солнечный день ??? (Если вы не в Шотландии…)

Очевидно, что подобрать алгоритм непросто (поверьте, это одна и та же одежда).

В этом посте я буду обсуждать только линейную регрессию и то, как ее можно использовать для прогнозирования результатов. Остальные вышеупомянутые вопросы будут обсуждаться в следующих публикациях.

Некоторым из вас может быть интересно, что такое линейная регрессия? и как это будет использовано в предсказаниях ?? Возьмем пример, и он поможет в понимании. У нас есть данные о победах в мужском олимпийском спринте на 100 метров с 1869 по 2008 год.

Посмотрите на данные, что вы видите? Какие-то цифры ..? Вы еще что-нибудь замечаете? похоже, время выигрыша сокращается, но вы уверены? Давайте попробуем визуализировать данные.

График выше показывает, что время выигрыша уменьшается с каждым годом, также кажется, что время выигрыша и год имеют линейную зависимость. Давайте проведем линию, проходящую через эти точки данных.

Уменьшение времени напомнило мне статью об Усейне Болте и его тренировках. Есть вероятность, что в наши дни бегуны получают хорошую подготовку и хорошие условия. Но подождите, у нас нет всей информации, так как мы можем быть уверены, почему время выигрыша сокращается и действительно ли это из-за года? Разве вы не делаете здесь предположений ... Хорошо, если да, потому что это первый шаг к моделированию. Здесь мы сделали три предположения: ›1) существует взаимосвязь между годом и временем выигрыша, 2) взаимосвязь линейная и 3) взаимосвязь может продолжаться в будущем.

С точки зрения прогнозирования, мы можем рассматривать «время выигрыша» в будущем как результат / целевую переменную / зависимую переменную и «год» как независимую переменную / атрибут. За каждым алгоритмом в машинном обучении стоит математический расчет. Итак, нам нужно будет составить математическое уравнение для времени выигрыша, года и их отношения.

Скажем, год Олимпиады - «X», а время победы - «t», тогда линейное уравнение может выглядеть так: t = f (X), но что такое f (X)? что будет выполнять эта функция? Функция линейной модели будет иметь несколько параметров, которые помогут в определении свойств линии.

w0 и w1 неизвестны. Чтобы найти для них наилучшие значения, мы можем случайным образом начать собирать значения и решать указанное выше уравнение, но возможно ли это? это эффективно? Точно нет. Итак, как узнать значения этих параметров? Остановитесь на секунду и подумайте, что у нас есть прямо сейчас? t и X .. Можем ли мы использовать их для получения значений для w0 и w1? Да, мы можем… Как…. Математика - это ответ. Наименьшие квадраты - наиболее распространенный подход к оценке значений этих параметров / коэффициентов.

Получив значения этих параметров, мы можем разработать наш собственный алгоритм линейной регрессии. Уверены ли мы, что двух коэффициентов достаточно, чтобы прогнозировать данные на будущее? Неужели время выигрыша будет уменьшаться с каждым годом ?? если так, то кто-то может финишировать за ноль секунд… что звучит довольно странно.

Давайте попробуем ввести еще один параметр и заменить приведенное выше уравнение на квадратное уравнение как -

После введения нового параметра и изменения уравнения график между годом и временем выигрыша может выглядеть следующим образом:

Выглядит лучше и разумнее, чем предыдущий сюжет ?? Как вы думаете, теперь вы можете предсказать время победы на следующих Олимпийских играх ?? Достаточно ли хороша эта модель для предсказания результата ?? Что ж, вы найдете свои ответы в следующем посте.

Вот ссылка на GitHub реализации линейной регрессии (ссылка взята из моих лекций и лабораторных работ по машинному обучению).

Приятного чтения !!