Дога Пойраз ТАХАН

Кафедра промышленной инженерии Университета MEF
Стамбул / Турция [email protected]

Существует множество альтернатив энтропии и получению информации. Два из них — коэффициент усиления и индекс Джини. Коэффициент усиления является модификацией информационного усиления. Для расчета коэффициента усиления мы используем два параметра: количество созданных веток, размер ветки. Сначала рассчитайте прирост информации, как показано в лекции, затем вычислите внутреннюю информацию с помощью функции ниже.

Теперь мы можем рассчитать информационный прирост следующим образом.

Недостатки Gain ratio заключаются в следующем.
1. Чрезмерная компенсация
2. Выбор атрибутов только из-за низкой внутренней ценности
3. Учитываются атрибуты с более высоким, чем в среднем, информационным приростом

Индекс Джини больше касается нечистоты атрибута. Индекс Джини также является одной из самых популярных альтернатив энтропии. Он широко используется в деревьях классификации и регрессии (CART). Для расчета примеси:

Отсюда можно рассчитать среднее значение индекса Джини по

Преимущества индекса Джини; он не требует компьютера для вычисления логарифмических функций, которые требуют больших вычислительных ресурсов.
Примечание. Следует отметить, что индекс Джини минимизируется, а не максимизируется. Вы можете проверить разницу между энтропией и индексом Джини на рисунке 2.

Что делать с переоснащением

Несмотря на то, что существует множество математических и эвристических способов справиться с переобучением. Я представлю два из них: перекрестную проверку и обрезку. Когда мы говорим об этом, нам нужно упомянуть классический способ предотвращения переобучения, который заключается в разделении имеющихся данных на две части: одна часть формирует набор обучающих данных, а другая формирует набор тестовых данных. Перекрестную проверку можно рассматривать как один и тот же набор данных, проверяющий друг друга с помощью разных групп наборов. Методы состоят из следующих шагов.

  1. Разделите ваши данные на k подмножеств
  2. Выберите один в качестве набора для тестирования.
  3. Запустите k много раз тренировочный набор с каждым различным набором тестов для k-1 тренировочного набора
  4. Получить среднее значение k экспериментов

Другой способ предотвратить чрезмерную обрезку состоит в том, чтобы разделить на две части: одну до обрезки, а другую после обрезки. В предварительной обрезке

использованная литература

[1] Дж. Фнфкранц, Фрэнк Виттен. Обучение дереву решений. Конспект лекций, Нью-Йорк, 2008 г.