Мы попросили более 100 студентов из семи университетов структурировать данные листинга с помощью ИИ и машинного обучения.

В eBay мы используем самое современное машинное обучение (ML), статистическое моделирование и логические выводы, графы знаний и другие передовые технологии для решения бизнес-задач, связанных с огромными объемами данных, большая часть которых поступает в нашу систему неструктурированными, неполными. , а иногда и неправильно. Чтобы помочь найти свежие идеи о том, как мы можем решить эту проблему, мы сотрудничали со студентами университетов в учреждениях по всей стране, чтобы провести конкурс ML, чтобы стимулировать дополнительные исследования в области электронной коммерции с использованием нашего собственного набора данных — 1 миллион избранных общедоступных данных из немаркированные списки. Чего мы не ожидали, так это количества выводов, полученных из представленных материалов. Вот некоторые из ключевых выводов, которые нам запомнились.

1. Студенты заинтересованы в решении этих задач.

Когда мы начали работу с университетами, мы изначально скептически относились к выбранному нами набору данных и к тому, привлечет ли студентов студентов задача домена электронной коммерции. Академическое любопытство и соревнования такого рода обычно склоняются к областям зрения и языка. С другой стороны, коммерции не уделяется должного внимания, поэтому мы были в восторге от волнения и отклика. Наш первоначальный план состоял в том, чтобы набрать две университетские команды, и мы превзошли нашу цель, набрав более 100 участников из семи университетов, распределенных по 37 командам. Благодаря молве и уникальности набора данных мы поняли, что существует неподдельный интерес к этой теме как со стороны студентов, так и исследователей.

2. Масштабируемая платформа и оптимизированные критерии оценки являются ключом к успешному соревнованию по машинному обучению.

Мы оценили различные платформы для проведения соревнований, и EvalAI оказался идеальным выбором. EvalAI находится под лицензией с открытым исходным кодом и допускает архитектурную гибкость, что позволяет нам эффективно масштабироваться.

Задача наиболее естественным образом решается с помощью метода обучения без учителя. Однако для того, чтобы оценить заявки, нам нужно было получить золотой набор правильно сгруппированных списков, что оказалось непросто. Даже когда мы отправляли одну и ту же пару листингов нескольким рецензентам и задавали, казалось бы, простой вопрос о том, одинаковы ли эти два листинга, мы часто получали противоречивые результаты, что, в свою очередь, требовало нескольких раундов проверки.

В качестве критерия оценки мы выбрали общий индекс Рэнда, который является объективной мерой, оценивающей общую точность. В то время как индекс Рэнда выполнял свою задачу при оценке представленных материалов, мы решили использовать другую метрику в будущих испытаниях, которая дает более высокий вес парам списков, которые должны быть идентифицированы как идентичные.

3. Неструктурированные данные eBay представляют собой постоянную проблему.

eBay — это платформа, которая позволяет продавцам вводить данные о листинге неструктурированным образом. В результате в объявлениях иногда отсутствует определенная информация, содержится избыточная информация и т. д.

Хотя результаты, полученные победившей командой, обнадеживают, проблема далека от полного решения, и это соревнование только подтвердило ее сложность. Тем не менее, выигрышный метод обеспечивает прочную основу, которую команды разработчиков eBay будут продолжать строить и развивать.

Победители

После тщательной оценки моделей, методологий, кода и многого другого мы рады объявить победителей конкурса eBay 2019 ML Challenge. Студентом-победителем в одиночной команде стал Ян Чжао из Стэнфордского университета. Кроме того, eBay предоставил стажировку Рабираджу Бандопадхьяю, который был частью команды, занявшей второе место в Университете штата Нью-Йорк-Баффало. Ян и Рабирадж присоединятся к нашей программе виртуальной летней стажировки и получат возможность работать с командой разработчиков eBay, которая использует машинное обучение и искусственный интеллект для решения уникальной задачи, которая относится только к eBay, — осмысления более 1,5 миллиардов объявлений.

Ян Чжао - доктор философии. студент Стэнфордского университета по специальности «строительство». Он является членом группы вычислительной геомеханики, разрабатывающей численные модели для анизотропных горных пород. Помимо учебы, Ян интересуется баскетболом и финансами, особенно в том, чтобы понять, как работает макроскопическая экономика. Он имеет двойную степень бакалавра экономики Университета Цинхуа и сдал первые два уровня экзаменов CFA.

Рабирадж Бандопадхьяй учится в магистратуре SUNY — Buffalo по специальности «Информатика и инженерия». Его ключевые области интересов — теоретическое машинное обучение, декомпозиция матриц для нейронных сетей и методы линейной алгебры в обучении без учителя и с учителем. Другие его увлечения включают прослушивание классической рок-музыки и чтение документальной литературы.

Программа стажировки eBay

Наши стажеры помогают нам переосмыслить торговую площадку eBay для миллионов клиентов по всему миру. В то время как сегодняшний климат создает много неизвестных для студентов, поступающих на работу, мы более чем когда-либо стремимся предоставить нашим стажерам наилучший возможный опыт обучения.

В ответ на пандемию COVID-19 12-недельная летняя стажировка eBay будет проводиться виртуально, чтобы обеспечить здоровье и безопасность наших стажеров. Сочетая реальный опыт работы и программирование, стажировка даст стажерам уникальную возможность заглянуть в различные вертикали бизнеса, встретиться с нашими руководителями и пообщаться с единомышленниками.

На протяжении всей стажировки перед студентами будет стоять задача предложить решения сложных проблем, которые окажут положительное влияние как на покупателей, так и на продавцов.

Поздравляем наших победителей и огромное спасибо всем участникам за их энтузиазм и поддержку.

Первоначально опубликовано на https://tech.ebayinc.com 18 мая 2020 г.