Прочитав эту статью, вы поймете, как проводить «Сегментацию клиентов» с помощью машинного обучения и почему это важно с точки зрения бизнеса.

Это моя первая статья, так что ставьте лайк, если считаете ее информативной.

Концепция:

Компании обычно изо всех сил пытаются обеспечить персонализированный опыт для клиентов. Понимание ваших клиентов имеет решающее значение, если вы хотите развивать свой бизнес. Знание своих клиентов поможет вам создавать целевые кампании и объявления. Вы можете повысить лояльность клиентов и уровень обслуживания клиентов. Это может помочь вам в выявлении новых возможностей. В маркетинге технику персонализации можно использовать для привлечения потенциальных клиентов в случае увеличения продаж. Итак, что такое сегментация клиентов? это метод разделения клиентов на группы со схожими характеристиками.

Типы сегментации:

  1. Демографическая сегментация — по возрасту, полу, доходу и т. д.
  2. Географическая сегментация — по стране, городу, штату, городу и т. д.
  3. Физиографическая сегментация — на основе социального класса, личности, отношения, ценностей, интересов и т. д.
  4. Поведенческая сегментация — на основе поведения клиентов, действий, частых действий
  5. Сегментация на основе ценности — экономическая ценность определенных групп клиентов для бизнеса.

Чтобы создать стратегию сегментации клиентов, вам сначала нужно определить цели вашей команды. Затем сегментируйте клиентов на группы и ориентируйтесь на них на основе связанных с ними характеристик. Для получения наиболее эффективных результатов вам следует анализировать свои маркетинговые усилия и точно настраивать свои сообщения по мере того, как вы узнаете больше о каждом сегменте.

Жизненный цикл проекта Data Science:

Теперь, когда мы понимаем нашу бизнес-проблему. Следующим шагом является следование жизненному циклу Data Science Project по сбору данных, очистке, исследованию, предварительной обработке, моделированию и оценке. В реальном мире вам пришлось бы выполнять этот процесс итеративно, выбирая различные функции и модели, пока бизнес-цель не будет достигнута.

Данные:

В этом посте я использую данные из Kaggle. Но в реальном мире у вас будет профиль клиента, история покупок, активность клиентов и т. д., которые являются внутренними данными, а также просмотр медиа, опросы, доход и т. д., которые являются внешними данными.

Я использую данные о сегментации клиентов из Kaggle. Сегментация, которую мы здесь делаем, называется «демографическая».

В реальном мире вам придется координировать сбор данных с заинтересованными сторонами, и вам, возможно, придется выполнять манипуляции с данными. Здесь наша работа немного упрощается, так как у нас есть готовые данные.

Исследовательский анализ данных:

Почему EDA важна:

  1. Это помогает раскрыть основную структуру/тенденции/паттерн набора данных.
  2. Это помогает понять нулевые значения, выбросы и дубликаты в наборе данных.
  3. Это помогает понять распределение переменных и взаимосвязь между ними.

Сначала я хочу узнать распределение категориальных переменных. Я использую круговую диаграмму, чтобы показать распределение в процентном формате.

Вы также можете увидеть распределение столбцов в следующем формате.

Теперь, когда мы знаем из вышеизложенного, у нас есть много категориальных переменных, а данные также содержат нулевые значения. В данных нет экстремальных выбросов, которые необходимо удалить.

Очистка данных:

Почему важна очистка данных:

  1. Если у вас есть отсутствующие значения/нулевые значения в данных, это снизит эффективность вашей модели ML.
  2. Это также влияет на общее распределение данных.
  3. Это также приводит к необъективному эффекту в оценке модели ML.

Есть несколько способов обработки отсутствующих значений в данных.

  1. Заполните пропущенные значения «NULL»/«0», если вы не хотите изменять распределение данных.
  2. Вмените отсутствующие данные с медианой или средними значениями
  3. Обратное заполнение — первое наблюдаемое ненулевое значение будет распространяться назад.
  4. Заполнение вперед — оно распространяет последнее наблюдаемое ненулевое значение вперед

В этом сценарии я вменяю данные со средними значениями как для категориальных, так и для числовых переменных. Вам нужно понять свои данные и выбрать метод, который вы хотите использовать. Вы всегда можете вернуться к этому шагу, если ваша модель ML не работает должным образом.

Предварительная обработка данных — кодирование:

Модель машинного обучения не понимает категориальные переменные. Ему нужны числовые данные для выполнения математических вычислений.

Типы кодирования:

  1. Порядковое кодирование: категории имеют неотъемлемый порядок.

2. Номинальная кодировка: Категории не имеют внутреннего порядка.

Существуют разные способы кодирования данных с помощью этих методов.

  1. Одно горячее кодирование/фиктивное кодирование: для каждого уровня категориальной переменной мы будем создавать новую числовую переменную.

2. Кодирование меток: оно напрямую преобразует категориальные переменные в числа, если категориальная переменная не имеет порядка (это метод номинального кодирования).

3. Хэш-кодирование: оно похоже на одногорячее кодирование, где оно преобразует уровни категориальных переменных в новую числовую переменную. Основное преимущество использования хэш-кодирования заключается в том, что вы можете контролировать количество числовых столбцов, создаваемых процессом. Вы можете представить одну категориальную переменную с более чем 4–5 новыми переменными или меньше.

Для этих данных я делаю одно горячее кодирование для преобразования категориальных переменных.

Стандартизация данных:

Почему важна стандартизация:

  1. Стандартизация данных важна, потому что она обеспечивает внутреннюю согласованность ваших данных. например ваши данные могут иметь значения с разными диапазонами и единицами измерения. Что может вызвать проблемы в моделях машинного обучения
  2. Это очень важный шаг для моделей, основанных на вычислении расстояния (таких как кластеризация K-средних, которую мы будем использовать в нашем анализе). Если какой-либо из признаков имеет широкий диапазон значений, расстояние будет определяться этим особая черта.

Моделирование и оценка:

Для этого набора данных я предполагаю, что у нас нет меток. Это общая ситуация в реальных данных. Наилучшей моделью для этого сценария является кластеризация K-средних.

Работа кластеризации K-средних:

Кластеризация K-средних — это метод неконтролируемого машинного обучения, который используется для идентификации кластеров данных в наборе данных. Алгоритмы кластеризации K-средних случайным образом выбирают k-число центроидов (которые мы предоставляем), которые используются в качестве начальной точки для каждого кластера, а затем итеративно выполняют этот процесс для оптимизации положения центроидов.

Метод локтя:

Как упоминалось выше, алгоритм k-средних случайным образом инициализирует k центроидов, как мы можем решить, какое число является оптимальным для кластеризации для любого набора данных? Метод локтя для спасения… Математически локоть кривой — это точка, в которой кривая заметно изгибается. Идея сегментации состоит в том, что кластеры добавят много информации, поскольку данные состоят из такого же количества групп (фактическое количество кластеров), но как только количество кластеров превысит фактическое количество групп в данных, добавленная информация резко сократится, потому что она просто подразделяет фактические группы. Если это произойдет, на графике появится изгиб.

Еще одна важная вещь, которую вам нужно изучить перед использованием любого алгоритма, — это «Silhouette Score». Он используется для оценки модели.

Оценка силуэта:

Оценка силуэта — это метод, используемый для интерпретации и проверки согласованности в кластерах данных. Эта оценка является мерой того, насколько объект похож на свой собственный кластер по сравнению с другими кластерами. Силуэт варьируется от -1 до +1, где высокое значение указывает на то, что объект хорошо соответствует своему собственному кластеру и плохо соответствует соседним кластерам. Таким образом, наша цель — получить высокую оценку силуэта.

Моя оценка 0,18 вполне приличная. И график Elbow показывает, что оптимальное количество кластеров может быть 4.

Если кластеры не имеют для вас смысла, вы можете попробовать другие методы, такие как PCA (анализ основных компонентов), и сравнить результаты. Как разобраться в кластерах, вы узнаете из следующего раздела.

Понимание кластеров| Создайте личность:

Это очень важный шаг, когда вы выполняете кластеризацию, создавая образ вокруг кластеров. Деловые люди хотели бы знать, как будет выглядеть человек в определенном сегменте.

Вы можете провести исследовательский анализ, чтобы понять каждый кластер.

Основываясь на средних значениях или распределении переменных, я могу определить каждый кластер следующим образом.

Время от времени тратит деньги. Как правило, это мужчины в возрасте от 38 до 55 лет, женатые, имеющие высшее образование, работающие в сфере искусства и не тратящие слишком много или слишком много. меньше, его среднее значение.

Новые покупатели-мужчины. Как правило, это снова мужчины в возрасте от 22 до 31 года, состоящие или не женатые, с высшим образованием, работающие в сфере здравоохранения или в качестве Доктор, и очень экономны в тратах.

Первые покупатели-женщины. Как правило, это женщины в возрасте от 35 до 50 лет, не состоящие в браке, имеющие высшее образование, работающие в сфере искусства и тратящие очень мало.

Элитный спонсор. Эти клиенты могут быть мужчинами или женщинами в возрасте от 46 до 75 лет, состоящими в браке, имеющими высшее образование, работающими юристами или руководителями и тратящими много денег.

Заключение:

Вы поняли, почему сегментация важна для бизнеса, как мы можем достичь этого с помощью машинного обучения и, наконец, как объяснить свои алгоритмические выводы деловым людям.

Дайте мне знать в разделе комментариев, было ли это полезно или есть ли какие-либо другие методы, которые я могу использовать для улучшения этого процесса.