Tabula Rasa: почему древовидные алгоритмы превосходят нейронные сети

|ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ| ТАБЛИЧНЫЕ ДАННЫЕ|

Tabula Rasa: почему древовидные алгоритмы превосходят нейронные сети

Древовидные алгоритмы являются победителями в области табличных данных: почему?

За последние годы искусственный интеллект добился больших успехов. ChatGPT ошеломил мир. Тем не менее, хотя мы видели потрясающие приложения как для изображений, так и для текста, табличные данные по-прежнему остаются проблемой. (Настолько, что Кадра в 2021 году назвала их непокоренным замком для нейросетей). Но почему они остаются проблемой?

Эта статья разделена на разные разделы. По каждому разделу мы ответим на следующие вопросы:

Что такое табличные данные?
Почему табличные данные сложны?
Почему алгоритмы на основе дерева решений превосходят нейронные сети для табличных данных?
Чего мы хотим от нейронных сетей для табличных данных? Каковы преимущества?
Как нам следует разработать алгоритм для табличных данных?

Проверьте список литературы в конце статьи, я также даю несколько советов по углублению темы.

Последний рубеж данных: табличные данные

Табличные данные можно определить как подветвь структурированных данных. Проще говоря, табличные данные можно определить как любые данные, которые можно описать как таблицу (например, лист Excel), в которой по соглашению строки представляют примеры, а столбцы представляют функции.
Как это ни парадоксально, несмотря на Благодаря своей простоте, в реальных приложениях большинство данных представлены в табличном формате: финансы, медицина, климатология и производство.

В отличие от изображений, текста или аудио (называемых однородными данными, поскольку они имеют только один тип функций), табличные данные – это неоднородные данные, поскольку они могут содержать несколько типов. особенностей:

Категорические значения: особый…

Tabula Rasa: почему древовидные алгоритмы превосходят нейронные сети

|ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ| ТАБЛИЧНЫЕ ДАННЫЕ|