Урок 5 вашего руководства, чтобы начать работу с миром науки о данных, анализируя продажи и поведение клиентов

В прошлом уроке мы приложили усилия, чтобы классифицировать наших клиентов по различным сегментам с учетом информации, связанной с денежной стоимостью, частотой и давностью продаж клиентов.



В этом новом мы попытаемся определить, каковы модели клиентов, которые просто покидают наш бизнес. Помните, что в нашем наборе данных у нас есть информация за последние два года, нумерация столбца день с первого дня этого двухлетнего периода времени. Используя тот же код из нашего последнего урока для расчета давности, мы можем получить информацию о том, когда была последняя покупка от каждого из наших клиентов. Нам нужно принять деловое решение о том, что мы считаем потерянным клиентом. В нашем примере мы считали бы, что потеряли клиента, когда его давность менее 600, что означает, что его последняя покупка была намного более 130 дней.

У нас есть 133 клиента, которые соответствуют этим критериям, из 2500 клиентов. Не плохо.

Существует множество методов решения проблемы оттока с помощью машинного обучения, но в нашем случае мы собираемся использовать метод контролируемого машинного обучения, поэтому нам нужно пометить наших клиентов столбцом, в котором мы классифицируем эти 133 клиента как потерянных клиентов, просто чтобы увидеть, сможем ли мы найти общие закономерности, которые позволили бы нам предвидеть отток. Для этого мы собираемся загрузить демографическую информацию о клиентах:

Затем нам нужно объединить оба фрейма данных, чтобы мы могли пометить потерянных клиентов.

Теперь мы готовы начать наш процесс машинного обучения, выполнив некоторые подготовительные задачи.

На первом этапе наши функции преобразуются в числовые значения, понятные нашему алгоритму. Мы собираемся использовать функцию манекенов из пакетов pandas, поэтому у нас будет столбец для каждого из значений каждой функции и 0 или 1, если это значение экземпляра.

Затем нам может понадобиться масштабировать функции. В нашем примере это не может быть существенным, потому что у нас нет числовых значений разных шкал, так как все наши признаки являются категориальными, и мы просто конвертировали в шкалу 0–1 с помощью функции дамми, но в реальном случае это было бы необходимо для конечно:

Следующим шагом будет балансировка наших ярлыков. У нас всего 133 клиента, которые ушли, поэтому наш лейбл не сбалансирован. Мы создадим искусственные экземпляры с помощью пакета SMOTE.

Теперь мы готовы передать данные нашему алгоритму, чтобы мы могли предсказать, какие клиенты будут производить бизнес, и попытаться предвидеть это. Мы будем использовать алгоритм Knn Classifier.

Результаты настолько хороши, главным образом потому, что мы выполнили основные шаги для задачи бинарной классификации: кодирование, масштабирование и баланс. Наконец, мы смогли увидеть, как наш алгоритм будет работать для каждого из четырех сценариев, с отчетом о матрице путаницы:

Сериал

  1. Урок 1. Загрузка набора данных и подготовка среды.
  2. Урок 2. Загрузите данные и получите информацию из набора данных. ЭДА
  3. Урок 3. Поведение клиентов: ваши первые аналитические запросы.
  4. Урок 4. Классификация RFM клиентов
  5. Урок 5. Поведение клиентов: анализ оттока
  6. Урок 6. Поведение клиентов: прогнозирование дохода
  7. Урок 7: Поведение клиентов: группы клиентов




Дополнительные материалы на PlainEnglish.io. Подпишитесь на нашу бесплатную еженедельную рассылку новостей. Подпишитесь на нас в Twitter и LinkedIn. Присоединяйтесь к нашему сообществу Discord.