В документе подчеркивается эффективность совместных инноваций и содержится информация о будущем машинного обучения.

Постдокторский научный сотрудник CDS Мика Голдблюм недавно опубликовал исследовательскую работу под названием Перенос обучения с помощью глубоких табличных моделей в сотрудничестве с Группой прикладных исследований Capital One, которая использует искусственный интеллект для улучшения своих финансовых услуг и поддерживает отношения сотрудничества с CDS. Голдблюм работал с Bayan Bruss, главой отдела прикладных исследований Capital One, профессором CDS Andrew Gordon Wilson, Романом Левиным, Валерией Черепановой, Ави Шварцшильдом, Арпитом Бансалом и Томом Гольдштейном, которые внесли значительный вклад в исследование.

Проект касается трансферного обучения, хранения информации, полученной в результате решения одной проблемы, которую можно применить к новой, но похожей проблеме. Пример, который приводит Голдблюм, — это использование больших объемов данных диагностики распространенных заболеваний для диагностики редких. В то время как нейронные модели очень эффективны в компьютерном зрении из-за их способности изучать повторно используемые функции и новые области, трансферное обучение также оказалось очень эффективным, когда данных для конкретной задачи недостаточно.

«Несмотря на то, что табличные данные имеют решающее значение для многих наших приложений в сфере финансовых услуг, они являются недостаточно развитой областью в основных исследованиях машинного обучения», — сказал Брасс. Хотя существуют высококачественные инструменты для машинного обучения на табличных данных (информация, организованная в виде таблиц), Брасс объясняет, что их научная база насчитывает десятилетия.

Недавнее исследование глубокого обучения для табличных данных показало, что этот метод хорошо работает и часто сокращает разрыв между широко используемыми деревьями решений с градиентным усилением (GBDT), методом машинного обучения, используемым в задачах классификации и регрессии, и нейронными сетями. «В таких областях, как компьютерное зрение и обработка естественного языка, доминировали нейронные сети, — сказал Голдблюм. «В то время как практики в области табличных данных, наиболее распространенной настройке в реальных приложениях, по-прежнему используют методы дерева решений».

В документе показано, что восходящие данные дают табличным нейронным сетям преимущество перед моделями GBDT. Он предлагает контрольный показатель медицинской диагностики для табличного обучения переносу и описывает руководство по использованию восходящих данных для повышения производительности в рамках ряда архитектур нейронных сетей. «Это захватывающее время для табличного глубокого обучения, и это может стать будущим науки о данных», — сказал Голдблюм.

Партнерство между CDS и Capital One, одним из наших партнеров-основателей, которое сделало возможным это исследование, является частью постоянного сотрудничества банка с ведущими университетами для развития машинного обучения и исследований в области искусственного интеллекта. Отношения облегчили возможности профессионального развития для Программы исследований бакалавриата CDS (CURP) и помогли университету запустить Инициативу разнообразия CDS в 2018 году для расширения представленности в науке о данных.

«Мы видим широкий спектр неизведанных территорий, связанных с тем, как сегодня можно использовать современные архитектуры машинного обучения для табличных данных», — сказал Брасс. «Сотрудничество с партнерами по инновационному исследовательскому сообществу, такими как Нью-Йоркский университет, для углубления понимания этой области является одним из главных приоритетов нашей команды».

Мэрил Фэйр