Классификация дерева решений и ее математическая реализация

Дерево решений - это простое представление для классификации примеров. В общем, анализ дерева решений - это инструмент прогнозного моделирования, который можно применять во многих областях. Деревья решений могут быть построены с помощью алгоритмического подхода, который может разбивать набор данных разными способами в зависимости от различных условий. Деревья решений - это самые мощные алгоритмы, подпадающие под категорию контролируемых алгоритмов.

Деревья решений (DT) - это непараметрический (фиксированное количество параметров) контролируемый метод обучения, используемый для классификации и регрессии. Цель состоит в том, чтобы создать модель, которая предсказывает метку целевой переменной, изучая простые правила принятия решений, выведенные из характеристик данных.

Двумя основными объектами дерева являются узлы решений, где данные разделяются, и листья, где мы получили результат.

У нас есть следующие два типа деревьев решений:

Деревья классификационных решений
Деревья решений регрессии (непрерывные типы данных)

Классификация

→ Классификация - это процесс категоризации заданного набора данных по классам. Это может быть выполнено как для структурированных, так и для неструктурированных данных. Процесс начинается с прогнозирования класса заданных точек данных. Классы часто называют целевыми, метками или категориями.

→ Проще говоря, классификация - это процесс разделения набора данных на разные категории или группы путем добавления метки.

→ Например: (i) Мужской или женский (ii) Спам или не-спам.

→ Использованные случаи: (i) Используется для обнаружения мошенничества или для проверки подлинности обнаружения. (ii) Используется для классификации фруктов по цвету и весу.

Классификация дерева решений

В этом виде деревьев решений переменная решения является категориальной. Приведенное выше дерево решений является примером дерева решений по классификации.
Такое дерево строится с помощью процесса, известного как двоичное рекурсивное разбиение. Это итеративный процесс разделения данных на разделы с последующим разделением их на каждую из ветвей.
Решения основаны на некоторых условиях. Принятое решение легко объяснить.
Деревья решений могут обрабатывать многомерные данные с хорошей точностью.
Дерево содержит узлы решений и листовые узлы.

→ Узлы решения - это узлы, которые представляют значение входной переменной (x). Имеет две или более двух ветвей.

→ Листовые узлы содержат решение или выходную переменную (y).

Важная терминология:

1.Корневой узел: он представляет всю генеральную совокупность или выборку, которая в дальнейшем делится на два или более однородных набора.
2.Разделение: это процесс разделение узла на два или более подузлов.
3. Узел принятия решения: когда подузел разделяется на следующие подузлы, он называется узлом решения. < br /> 4.Leaf / Terminal Node: узлы не разделяются, это называется Leaf или Terminal node.
5.Pruning: когда мы удаляем подузлы узла принятия решения , этот процесс называется сокращением. Вы можете сказать противоположный процесс разделения.
6. Ветвь / Поддерево: Подраздел всего дерева называется ветвью или поддеревом.
7. Родитель и Дочерний элемент. Узел: узел, который разделен на подузлы, называется родительским узлом подузлов, где подузлы являются дочерними по отношению к родительскому узлу.

Как работает алгоритм дерева решений?

Основная идея любого алгоритма дерева решений заключается в следующем:

Выберите лучший атрибут, используя Параметры выбора атрибутов (ASM), чтобы разделить записи.
Сделайте этот атрибут узлом решения и разбейте набор данных на более мелкие подмножества.
Начинает построение дерева, рекурсивно повторяя этот процесс для каждого дочернего элемента, пока не будет выполнено одно из условий:

Все кортежи принадлежат одному и тому же значению атрибута.
Больше не осталось атрибутов.
Больше нет экземпляров.

Например,

Давайте разберемся с классификацией дерева решений: (В этом примере мы должны предсказать, подходит ли человек или нет, и для прогнозирования у нас есть некоторые параметры решения, такие как возраст, упражнения по утрам и есть пиццу или нет)

Правила классификации:

Правила классификации - это случаи, когда принимаются во внимание все сценарии и каждому назначается переменная класса.

Переменная класса:

Каждому конечному узлу присваивается переменная класса. Переменная класса - это окончательный результат, который приводит к нашему решению. Здесь у нас есть две переменные класса, то есть Fit и Unfit.

Давайте выведем правила классификации из созданного выше Дерева решений:

Если человек младше 30 лет и ест много пиццы → UNFIT
Если человек младше 30 лет и ест мало пиццы → FIT
Если человек старше 30 лет и делает зарядку по утрам → FIT
Если человек старше 30 лет и не занимается спортом по утрам → UNFIT

Математика, лежащая в основе классификации дерева решений:

Для случайно распределенного набора данных вам не следует использовать другой алгоритм классификации, такой как SVM, K-means или Naive Bayes. Поскольку большее количество случайностей в данных приведет к увеличению энтропии, вы должны выбрать алгоритм, который минимизирует энтропию и максимизирует получение информации . В этом контексте вы должны реализовать дерево решений для классификации.

Показатель выбора атрибута - это эвристический метод для выбора критерия разделения, который позволяет разбить данные на наилучший из возможных способов. Это также известно как правила разделения, потому что они помогают нам определять точки останова для кортежей на данном узле. ASM присваивает рейтинг каждой функции (или атрибуту), объясняя данный набор данных. Атрибут лучшего результата будет выбран как атрибут разделения. В случае атрибута с непрерывным значением также необходимо определить точки разделения для ветвей. Самыми популярными критериями отбора являются информационный прирост, коэффициент прироста и индекс Джини.

Энтропия - это мера случайности или нечистоты, содержащейся в наборе данных. В теории информации это относится к примеси в группе примеров.
Прирост информации - это противоположность энтропии, которая измеряет уменьшение энтропии. Прирост информации вычисляет разницу между энтропией до разделения и средней энтропией после разделения набора данных на основе заданных значений атрибутов .

Где Pi - вероятность того, что произвольный набор из D принадлежит классу Ci

Коэффициент усиления

Коэффициент усиления решает проблему смещения путем нормализации получения информации с помощью Split Info. Коэффициент усиления можно определить как

Индекс Джини

Для индекса Джини предпочтение отдается разделам большего размера. Он использует квадратичную долю классов. При идеальной классификации индекс Джини будет равен нулю. Разделение переменных должно иметь низкий индекс Джини.

Алгоритм работает как «1 - (P (class1) ² + P (class2) ² +… + P (classN) ²)»

Атрибут, который имеет наибольшее информационное усиление и, следовательно, становится атрибутом разделения в корневом узле дерева решений. Кортежи разделяются соответствующим образом.

Заключение:

Деревья решений - одна из наиболее широко используемых моделей машинного обучения, поскольку они хорошо работают с зашумленными или отсутствующими данными и могут быть легко объединены для формирования более надежных предикторов. Еще одна причина, по которой разбиение дерева решений дает нам более точные результаты.