В этой серии статей мы поделимся передовым опытом BlaBlaCar в управлении стратегическим проектом, связанным с машинным обучением. Эти статьи требуют базовых знаний в области машинного обучения. Наш подход очень вдохновлен Google и их книгой правил машинного обучения Google.
В этой первой статье мы поделимся соображениями и инструментами, настроенными перед внедрением систем машинного обучения. Эта статья предназначена для инженеров и менеджеров, которые хотят повысить шансы на успех проекта, связанного с алгоритмами машинного обучения.

До машинного обучения

Что такое фишинг?

Фишинг — это вид мошенничества, при котором мошенники пытаются получить платежные или финансовые данные от физических лиц, выдавая себя за законное лицо. Платформы, которые облегчают контакты между людьми и предполагают обмен деньгами между ними, такие как BlaBlaCar, особенно уязвимы для этого типа схемы мошенничества.

Чтобы бороться с этим, BlaBlaCar внедрила различные системы обнаружения мошенничества и борьбы с мошенничеством, некоторые из которых включают алгоритмы машинного обучения. Эта серия статей будет посвящена одному из них, для которого подход, ориентированный на машинное обучение, принес высокую отдачу.

Как мошенники пытаются получить деньги или платежные реквизиты?

Мошенники часто используют такие тактики, как создание поддельных веб-сайтов, которые напоминают законную платформу, или создание поддельных профилей пользователей. Эти поддельные пользователи могут не иметь оценок и брать меньше, чем другие, за аналогичную поездку. Они могут попытаться связаться с участниками за пределами платформы, чтобы получить платежные реквизиты, что является очевидным нарушением безопасности.

Социальная инженерия

В контексте информационной безопасности социальная инженерия относится к манипулированию людьми с целью разглашения конфиденциальной информации или выполнения действий, которые могут поставить под угрозу их безопасность. Когнитивные предубеждения часто используются социальными инженерами для достижения своих целей, и эти методы широко используются мошенниками на таких платформах, как BlaBlaCar. В частности, мошенники, как правило, полагаются на такие принципы влияния, как редкость и срочность, чтобы получить ответ от своих целей.

Например, представьте себе пользователя, который с нетерпением ждет автобазы, которая присоединится к его семье на выходные. Если поездка неожиданно отменяется, пользователь может испытывать чувство срочности и беспокойства, побуждая его к действиям, которые он обычно не рассматривал. Таким образом, очень важно защитить участников BlaBlaCar от подобных ситуаций.

В BlaBlaCar мы стремимся внедрять меры для защиты наших пользователей от атак с использованием социальной инженерии. Информируя наших участников о рисках и предоставляя рекомендации о том, как выявлять потенциальные угрозы и реагировать на них, мы стремимся создать безопасную среду для всех на нашей платформе. Помимо кампаний по повышению осведомленности участников, наши сервисы должны иметь встроенные функции безопасности, чтобы их было сложнее использовать против наших пользователей.

Определение «что» перед «как»

Но что значит защитить наши услуги от мошенников? Мы знаем, что у нас есть потенциальная проблема, и может возникнуть соблазн броситься с головой в небольшие исправления, пытаясь предотвратить создание поддельных учетных записей.

Наша стратегия, однако, состояла в том, чтобы сделать шаг назад. Что именно мы пытаемся решить? Крайне важно сначала определить показатель, который необходимо улучшить для решения проблемы. Без измерения проблемы становится трудно оптимизировать или найти решение, даже с помощью алгоритмов машинного обучения. Поэтому не спешите пытаться найти решения проблем, которые трудно определить или измерить. Без их предварительного прояснения есть вероятность, что решения не будут правильными.

Во-первых, спроектируйте и внедрите метрики

Определение. Ключевые показатели эффективности (KPI) являются стратегическими, тогда как метрики часто являются операционными или тактическими. Метрики — это индикаторы более низкого уровня, специфичные для отдела, в то время как ключевые показатели эффективности могут отслеживаться различными отделами, работающими над одной и той же целью.

В борьбе с мошенничеством мы выбрали простой, наблюдаемый и точный KPI. Мы решили измерить количество случаев мошенничества, о которых сообщили наши участники через нашу контактную форму. Мы выразили это как количество жертв на тысячу активных членов. Ежеквартально для этого показателя определяются целевые показатели по странам и уровни предупреждений, которые распределяются по всей компании.

Однако полагаться исключительно на количество случаев мошенничества, о которых сообщают участники, не идеально для отслеживания тенденций на еженедельной основе, поскольку это имеет тенденцию опаздывать, поскольку сообщения о случаях мошенничества могут передаваться жертвой до 3 недель. Если сокращение количества жертв мошенничества до уровня менее 1 на 10 000 активных членов является большой целью для всей компании, нам нужно было создать прокси-метрики для ежедневных операций каждой команды. Прокси-метрика — это показатель, который легко измерить и соотнести с целью нашей компании. При принятии решения об измеряемых прокси-метриках мы стремились к более чем 1 метрике и старались избегать тех, которые измеряют косвенные эффекты. Каждая прокси-метрика несет в себе уникальную точку зрения и предубеждения, поэтому нам потребовалось некоторое время, чтобы определить и перечислить их.

Выбор правильного показателя имеет решающее значение, так как он будет определять действия, которые можно предпринять для решения проблемы. Например, на начальных этапах борьбы с мошенничеством в BlaBlaCar мы сосредоточились на снижении процента бронирований. сделанные в поездках, опубликованных мошенниками. Однако, поскольку мошенничество было взято под контроль, мы сосредоточились на проценте мошеннических поставок. В обоих случаях эти показатели рассчитывались каждый день путем ручной маркировки выборки активных водителей.

Видите ли вы изменение перспективы между обоими показателями? Процент запросов на бронирование, отправленных мошенникам, отражает поведение как наших законных участников, так и мошенников, тогда как процент мошеннических предложений в основном фиксирует действия мошенников. Это означало, что наши кампании по повышению осведомленности членов повлияли на первый показатель, но не на второй.

То, хотим ли мы сосредоточиться на той или иной метрике, было вопросом приоритетности продукта. Обучение участников было дешевым и эффективным способом решить первоначальную метрику, но негативно повлияло на вторую, поскольку повышение осведомленности наших участников вынудило мошенников изменить свою стратегию, и в итоге они опубликовали еще больше мошеннических поездок. Поэтому было важно постоянно оценивать оба показателя и соответствующим образом корректировать нашу стратегию.

Сделай так, чтоб это работало. Затем сделайте его масштабируемым.

Мы знали, что для успешного внедрения системы машинного обучения важно сначала убедиться, что проблема стоит вложения ресурсов, как человеческих, так и финансовых. Во многих случаях запуск с помощью простых инструментов и ручных действий может оказать существенное влияние на ключевой показатель эффективности без необходимости использования сложной системы машинного обучения.

Системы машинного обучения впечатляют, но они обычно требуют некоторой степени человеческого контроля. Наличие экспертов, которые могут помочь специалистам по обработке и анализу данных, является бесценным средством быстрого доступа и часто может иметь решающее значение. Если команда не может выделить существенные человеческие ресурсы для использования простых инструментов и часто полагается на ручные действия, чтобы повлиять на ключевые показатели эффективности, то проблема, вероятно, недостаточно серьезна, чтобы заслуживать внимания.

В случае мошенничества в BlaBlaCar команда сначала сосредоточилась на ручной проверке когорт пользователей, где доля мошенничества была самой высокой и где стратегические интересы компании могли быть поставлены под угрозу. Это позволило нам собирать данные и метки во время работы. также потушить немедленный огонь мошенников, публикующих поддельные поездки. Как только проблема была взята под контроль, команда смогла сосредоточиться на создании более масштабируемого и автоматизированного решения, которое можно было бы использовать для мониторинга и обнаружения мошеннического поведения в более широком масштабе.

Мы инвестируем значительные человеческие ресурсы в ручную маркировку наших членов.

Урок здесь заключается в том, что важно сначала расставить приоритеты и сосредоточиться на решении самых насущных проблем, прежде чем инвестировать в сложные и дорогие системы машинного обучения. Начав с малого и повторяя на основе результатов, мы смогли со временем создать более эффективное решение, снизив при этом нагрузку на команду. Для большинства компаний система машинного обучения требует значительных инвестиций в течение нескольких лет. Так что выбирайте свои бои с осторожностью.

Выбирайте машинное обучение, а не сложную эвристику

Большинство систем борьбы с мошенничеством основаны на механизмах правил, и наша не исключение. Просто проведите несколько минут с экспертом по доверию и безопасности, который каждый день блокирует мошенников, и вы получите длинный список более или менее конкретных бизнес-правил, которые помогут определить подозрительную активность на нашей платформе. Каждое из этих правил будет ловить мошенников, но также будет генерировать ложные срабатывания. Возьмем реальный, хотя и выдуманный пример: мы заметили, что значительная часть поездок, опубликованных на час (6:00, 7:00, …), являются результатом периодически исполняемых мошенниками скриптов. Настроив правило для обнаружения этих поездок, мошенники изменили расписание своих скриптов, и теперь мы фактически фиксируем поездки, опубликованные законными пользователями, которые случайно опубликовали свои поездки в точку.

Выбирая между сложной эвристикой и системой машинного обучения, нам пришлось учитывать ограничения обоих решений. Хотя механизмы правил могут ловить мошенников, они также генерируют ложные срабатывания, которые могут вызвать разочарование у законных пользователей. Кроме того, мошенники могут быстро адаптировать и обходить правила, что со временем делает их бесполезными.

Хотя количество законных пользователей, затронутых бизнес-правилом, может показаться небольшим по сравнению с количеством обнаруженных нами мошенников, ситуация может быстро измениться, когда мошенники изменят свое поведение. Подсчитано, что мошенникам требуется менее недели, чтобы обойти новое правило.

Системы машинного обучения могут адаптироваться к изменяющемуся поведению и улучшаться со временем, если их часто переобучать. Они также могут уменьшить количество ложных срабатываний и скорость переключения, изучая прошлые примеры и выявляя более тонкие модели мошенничества. Но мы заметили, что без надлежащего инструментария частота повторного обучения была довольно низкой.

Чтобы не застрять в наборе бизнес-правил или правил машинного обучения, которые генерируют почти только ложные срабатывания, мы решили сначала внедрить инструменты для оценки фактической эффективности этих правил. Эти инструменты будут полезны независимо от того, выбираем ли мы эвристику или систему машинного обучения.

Взлет и падение обнаружения двух бизнес-правил

Мы рассматривали бизнес-правила как первоначальную версию нашей модели машинного обучения, результат обобщенного опыта человека-эксперта, «обученного» тысячам примеров мошенничества. Как и в любой модели машинного обучения, производительность бизнес-правил снижалась по мере изменения поведения наших мошенников.

Заключение

В заключение, прежде чем обучать нашу первую модель, мы определили проблему, над которой уже работали команды нашей компании, определили полезную метрику для отслеживания прогресса и построили информационную панель, чтобы обеспечить видимость для всех участников. Мы опросили экспертов в предметной области и применили простую эвристику, основанную на нескольких правилах, чтобы решить часть проблемы.

Самое главное, мы потратили много времени на создание инструмента для оценки производительности каждого правила в нашем первоначальном выпуске. Крайне важно поделиться тем, как работает инструмент измерения, и убедиться, что все заинтересованные стороны уверены в результатах и ​​доступных информационных панелях. Без этой уверенности было бы сложно убедить спонсоров в эффективности моделей машинного обучения, которые менее объяснимы, чем простые бизнес-правила.

Эта статья — первая часть нашей серии статей о борьбе с мошенничеством в BlaBlaCar. Как вы уже видели, большую часть жизненного цикла проекта, связанного с машинным обучением, составляет определение масштаба проекта и внедрение инструментов мониторинга и коммуникации. Во второй части мы погрузимся в развертывание нашего первого конвейера машинного обучения.

Спасибо, Рикардо Лаге, Дени Вернер, Бенуа Раджалу, Гийом Клошар, Кинерет Кимхи, Марго Зервелис, Александр Де ла Рош, Пьер-Франсуа Буке и Виктор Рубин за отзыв и отзыв.