Дога Пойраз ТАХАН
Кафедра промышленной инженерии Университета MEF
Стамбул / Турция [email protected]
Существует множество альтернатив энтропии и получению информации. Два из них — коэффициент усиления и индекс Джини. Коэффициент усиления является модификацией информационного усиления. Для расчета коэффициента усиления мы используем два параметра: количество созданных веток, размер ветки. Сначала рассчитайте прирост информации, как показано в лекции, затем вычислите внутреннюю информацию с помощью функции ниже.
Теперь мы можем рассчитать информационный прирост следующим образом.
Недостатки Gain ratio заключаются в следующем.
1. Чрезмерная компенсация
2. Выбор атрибутов только из-за низкой внутренней ценности
3. Учитываются атрибуты с более высоким, чем в среднем, информационным приростом
Индекс Джини больше касается нечистоты атрибута. Индекс Джини также является одной из самых популярных альтернатив энтропии. Он широко используется в деревьях классификации и регрессии (CART). Для расчета примеси:
Отсюда можно рассчитать среднее значение индекса Джини по
Преимущества индекса Джини; он не требует компьютера для вычисления логарифмических функций, которые требуют больших вычислительных ресурсов.
Примечание. Следует отметить, что индекс Джини минимизируется, а не максимизируется. Вы можете проверить разницу между энтропией и индексом Джини на рисунке 2.
Что делать с переоснащением
Несмотря на то, что существует множество математических и эвристических способов справиться с переобучением. Я представлю два из них: перекрестную проверку и обрезку. Когда мы говорим об этом, нам нужно упомянуть классический способ предотвращения переобучения, который заключается в разделении имеющихся данных на две части: одна часть формирует набор обучающих данных, а другая формирует набор тестовых данных. Перекрестную проверку можно рассматривать как один и тот же набор данных, проверяющий друг друга с помощью разных групп наборов. Методы состоят из следующих шагов.
- Разделите ваши данные на k подмножеств
- Выберите один в качестве набора для тестирования.
- Запустите k много раз тренировочный набор с каждым различным набором тестов для k-1 тренировочного набора
- Получить среднее значение k экспериментов
Другой способ предотвратить чрезмерную обрезку состоит в том, чтобы разделить на две части: одну до обрезки, а другую после обрезки. В предварительной обрезке
использованная литература
[1] Дж. Фнфкранц, Фрэнк Виттен. Обучение дереву решений. Конспект лекций, Нью-Йорк, 2008 г.