|ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ| ТАБЛИЧНЫЕ ДАННЫЕ|

Tabula Rasa: почему древовидные алгоритмы превосходят нейронные сети

Древовидные алгоритмы являются победителями в области табличных данных: почему?

За последние годы искусственный интеллект добился больших успехов. ChatGPT ошеломил мир. Тем не менее, хотя мы видели потрясающие приложения как для изображений, так и для текста, табличные данные по-прежнему остаются проблемой. (Настолько, что Кадра в 2021 году назвала их непокоренным замком для нейросетей). Но почему они остаются проблемой?

Эта статья разделена на разные разделы. По каждому разделу мы ответим на следующие вопросы:

  • Что такое табличные данные?
  • Почему табличные данные сложны?
  • Почему алгоритмы на основе дерева решений превосходят нейронные сети для табличных данных?
  • Чего мы хотим от нейронных сетей для табличных данных? Каковы преимущества?
  • Как нам следует разработать алгоритм для табличных данных?

Проверьте список литературы в конце статьи, я также даю несколько советов по углублению темы.

Последний рубеж данных: табличные данные

Табличные данные можно определить как подветвь структурированных данных. Проще говоря, табличные данные можно определить как любые данные, которые можно описать как таблицу (например, лист Excel), в которой по соглашению строки представляют примеры, а столбцы представляют функции.
Как это ни парадоксально, несмотря на Благодаря своей простоте, в реальных приложениях большинство данных представлены в табличном формате: финансы, медицина, климатология и производство.

В отличие от изображений, текста или аудио (называемых однородными данными, поскольку они имеют только один тип функций), табличные данные – это неоднородные данные, поскольку они могут содержать несколько типов. особенностей: