Случайные леса и их… не такие уж и случайные решения

Сегодня случайные леса интегрированы во многие приложения — в банковской сфере, здравоохранении и медицине, на фондовом рынке и во многих других областях. 😄

По сути, случайный лес — это гибкий алгоритм машинного обучения, который прост в использованиии дает потрясающие результаты. (даже без настройки гиперпараметров) Насколько это круто? 😝

Итак, давайте резервное копирование. Существуют различные типы машинного обучения: обучение с учителем, обучение без учителя и обучение с подкреплением. В контролируемом обучении есть классификация и регрессия. 🔍

Классификация — это своего рода задача, в которой результаты более однозначны, такие как «да» или «нет», «правда» или «ложь», «0» или «1». В классификации используются различные алгоритмы, такие как KNN, наивный байесовский алгоритм и случайный лес (дерево решений).

Хорошо, что такое случайный лес? 🌲

(Есть несколько смайликов с деревьями, рождественские елки милые 🎄)

Случайный лес/лес случайных решений подобен принятию одного большого решения на основе более мелких решений. Он создает несколько деревьев решений на этапе обучения, и большинство решений из деревьев выбирается случайным лесом в качестве окончательного решения. (представьте, что вы действительно принимаете правильные решения😆)

Но… почему случайный лес?

Помимо простоты и удобства в использовании…

Переобучения нет — используя несколько деревьев, вы снижаете риск переобучения и, как следствие, сокращаете время обучения.

(что такое переоснащение?

Что ж, цель модели машинного обучения – использовать обучающие данные для обобщений и применять их к любым данным в предметной области, делая прогнозы на будущее для невидимых объектов. данные. Когда модель, которая моделирует обучающие данные слишком хорошо, она улавливает все странные части 😐, поэтому вместо того, чтобы предсказывать общие данные, вы улавливаете странные вещи. В результате эти странные вещи изучаются моделью как концепции, которые не могут применяться к новым данным, что снижает ее способность к обобщению.)

Высокая точность: он эффективно работает с большими базами данных, а также дает очень точные прогнозы.

Оценивает отсутствующие данные – в наши дни с нечеткими данными приходится использовать случайные леса 🙏. Случайные леса оценивают отсутствующие данные, сохраняя при этом точность, когда большая часть данных отсутствует.

Да, случайные леса полны решений. Но что такое дерево решений?

Что такое дерево решений? Дерево решений — это, ну, диаграмма, похожая на дерево 🌴. Он используется для определения курса действий, и каждая ветвь дерева представляет собой возможное решение, событие или реакцию.

Это тип контролируемого машинного обучения (где вы объясняете ввод, который соответствует выводу), и данные разбиваются на определенный параметр. Как и обычное дерево, оно имеет узлы и листья 🍃 — листья — это решения/конечные результаты, а узлы — это места, где данные разбиваются.

Для всего в дереве решений то, как оно принимает решение, основано на энтропии. Энтропия — это мера случайности или непредсказуемости набора данных.

Давайте посмотрим на пример:

Допустим, мы хотим классифицировать различные виды фруктов в миске на основе различных признаков.

В начальной корзине энтропия высока, там смешано много разных фруктов, так что вы никак не сможете точно предсказать это. (кстати, корневой узел — это место, где происходят все данные с первым решением/разделением)

Мы должны разделить данные так, чтобы прирост информации был максимальным.

Прирост информации показывает, насколько уменьшилась энтропия набора после разделения. Вы переходите от одного набора с высокой энтропией ➡️ к двум более низким наборам с более низкой энтропией. Глядя на набор обучающих данных, мы выберем условие, которое дает нам наибольший выигрыш.

Глядя на набор обучающих данных, мы выбираем условие, которое дает нам наибольший выигрыш, разделяя данные с использованием каждого условия + проверяя выигрыш, который мы получаем от них. Для первого разделения будет использоваться условие с наибольшим усилением.

Для случайного леса это набор деревьев решений. Допустим, вы хотите классифицировать этот фрукт, в котором отсутствует некоторая информация (в данном случае цвет). Проходя через деревья решений, даже несмотря на то, что не все деревья решений пришли к одному и тому же решению, случайный лес все еще способен принять правильное окончательное решение благодаря большинству. 😎

Ресурсы:

Изображения из:

Алгоритм случайного леса — объяснение случайного леса (если хотите, проследите за реализацией случайного леса с анализом цветов IRIS)

Ну и конечно Миро за остальные образы

Случайные леса и их… не такие уж и случайные решения

Хорошо, что такое случайный лес? 🌲

Да, случайные леса полны решений. Но что такое дерево решений?

Ресурсы:

Вопросы по теме