Поведение клиентов: анализ оттока

Урок 5 вашего руководства, чтобы начать работу с миром науки о данных, анализируя продажи и поведение клиентов

В прошлом уроке мы приложили усилия, чтобы классифицировать наших клиентов по различным сегментам с учетом информации, связанной с денежной стоимостью, частотой и давностью продаж клиентов.

Классификация клиентов RFM
Урок 4ai.plainenglish.io

В этом новом мы попытаемся определить, каковы модели клиентов, которые просто покидают наш бизнес. Помните, что в нашем наборе данных у нас есть информация за последние два года, нумерация столбца день с первого дня этого двухлетнего периода времени. Используя тот же код из нашего последнего урока для расчета давности, мы можем получить информацию о том, когда была последняя покупка от каждого из наших клиентов. Нам нужно принять деловое решение о том, что мы считаем потерянным клиентом. В нашем примере мы считали бы, что потеряли клиента, когда его давность менее 600, что означает, что его последняя покупка была намного более 130 дней.

У нас есть 133 клиента, которые соответствуют этим критериям, из 2500 клиентов. Не плохо.

Существует множество методов решения проблемы оттока с помощью машинного обучения, но в нашем случае мы собираемся использовать метод контролируемого машинного обучения, поэтому нам нужно пометить наших клиентов столбцом, в котором мы классифицируем эти 133 клиента как потерянных клиентов, просто чтобы увидеть, сможем ли мы найти общие закономерности, которые позволили бы нам предвидеть отток. Для этого мы собираемся загрузить демографическую информацию о клиентах:

Затем нам нужно объединить оба фрейма данных, чтобы мы могли пометить потерянных клиентов.

Теперь мы готовы начать наш процесс машинного обучения, выполнив некоторые подготовительные задачи.

На первом этапе наши функции преобразуются в числовые значения, понятные нашему алгоритму. Мы собираемся использовать функцию манекенов из пакетов pandas, поэтому у нас будет столбец для каждого из значений каждой функции и 0 или 1, если это значение экземпляра.

Затем нам может понадобиться масштабировать функции. В нашем примере это не может быть существенным, потому что у нас нет числовых значений разных шкал, так как все наши признаки являются категориальными, и мы просто конвертировали в шкалу 0–1 с помощью функции дамми, но в реальном случае это было бы необходимо для конечно:

Следующим шагом будет балансировка наших ярлыков. У нас всего 133 клиента, которые ушли, поэтому наш лейбл не сбалансирован. Мы создадим искусственные экземпляры с помощью пакета SMOTE.

Теперь мы готовы передать данные нашему алгоритму, чтобы мы могли предсказать, какие клиенты будут производить бизнес, и попытаться предвидеть это. Мы будем использовать алгоритм Knn Classifier.

Результаты настолько хороши, главным образом потому, что мы выполнили основные шаги для задачи бинарной классификации: кодирование, масштабирование и баланс. Наконец, мы смогли увидеть, как наш алгоритм будет работать для каждого из четырех сценариев, с отчетом о матрице путаницы:

Сериал

Урок 1. Загрузка набора данных и подготовка среды.
Урок 2. Загрузите данные и получите информацию из набора данных. ЭДА
Урок 3. Поведение клиентов: ваши первые аналитические запросы.
Урок 4. Классификация RFM клиентов
Урок 5. Поведение клиентов: анализ оттока
Урок 6. Поведение клиентов: прогнозирование дохода
Урок 7: Поведение клиентов: группы клиентов

Получать электронные письма каждый раз, когда Антонио Сото публикует.
Получать электронные письма, когда Антонио Сото публикует. Зарегистрировавшись, вы создадите учетную запись Medium, если у вас ее еще нет…medium.com

Присоединяйтесь к Medium по моей реферальной ссылке — Антонио Сото
Как участник Medium, часть вашего членского взноса идет авторам, которых вы читаете, и вы получаете полный доступ ко всем историям… medium.com

Дополнительные материалы на PlainEnglish.io. Подпишитесь на нашу бесплатную еженедельную рассылку новостей. Подпишитесь на нас в Twitter и LinkedIn. Присоединяйтесь к нашему сообществу Discord.

Поведение клиентов: анализ оттока

Вопросы по теме