|ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ| ТАБЛИЧНЫЕ ДАННЫЕ|
Tabula Rasa: почему древовидные алгоритмы превосходят нейронные сети
Древовидные алгоритмы являются победителями в области табличных данных: почему?
За последние годы искусственный интеллект добился больших успехов. ChatGPT ошеломил мир. Тем не менее, хотя мы видели потрясающие приложения как для изображений, так и для текста, табличные данные по-прежнему остаются проблемой. (Настолько, что Кадра в 2021 году назвала их непокоренным замком для нейросетей). Но почему они остаются проблемой?
Эта статья разделена на разные разделы. По каждому разделу мы ответим на следующие вопросы:
- Что такое табличные данные?
- Почему табличные данные сложны?
- Почему алгоритмы на основе дерева решений превосходят нейронные сети для табличных данных?
- Чего мы хотим от нейронных сетей для табличных данных? Каковы преимущества?
- Как нам следует разработать алгоритм для табличных данных?
Проверьте список литературы в конце статьи, я также даю несколько советов по углублению темы.
Последний рубеж данных: табличные данные
Табличные данные можно определить как подветвь структурированных данных. Проще говоря, табличные данные можно определить как любые данные, которые можно описать как таблицу (например, лист Excel), в которой по соглашению строки представляют примеры, а столбцы представляют функции.
Как это ни парадоксально, несмотря на Благодаря своей простоте, в реальных приложениях большинство данных представлены в табличном формате: финансы, медицина, климатология и производство.
В отличие от изображений, текста или аудио (называемых однородными данными, поскольку они имеют только один тип функций), табличные данные – это неоднородные данные, поскольку они могут содержать несколько типов. особенностей:
- Категорические значения: особый…