Почти в каждой отрасли отток клиентов играет жизненно важную роль в сохранении доходов. Все бизнес-сообщество твердо верит, что клиент — это Бог. Статистические исследования также подтверждают, что стоимость привлечения нового клиента значительно выше, чем удержание существующего. Эпоха цифровизации, растущая в геометрической прогрессии за последние пару лет, бросает все больше вызовов отрасли, заставляя поставщиков конкурировать друг с другом, предлагая новые схемы, скидки и новые технологические обновления для удержания клиентов.

Выбор потребителей растет день ото дня, ожидая более качественных услуг по более низкой цене, их ожидания росли быстрее, чем несколько лет назад. Таким образом, удержание бога клиентов — сложная задача, но менее затратная, чем привлечение нового клиента. Удовлетворение существующих клиентов высококачественными услугами по низкой цене, попытка проникновения и увеличение объема подписки были бы отличным дополнением к индустрии телекоммуникаций.

Как специалист по данным и энтузиаст машинного обучения, я хотел бы предсказать отток клиентов в телекоммуникационной отрасли в этой статье. В наши дни невозможно представить жизнь без мобильного телефона. Каждый крючок и угол мобильных телефонов были достигнуты, и в том же темпе телекоммуникационные службы должны достичь своих сигналов, новых предложений и схем для клиентов.

Телекоммуникационная отрасль возродила многие отрасли и дала новый спектр жизни. Сферы образования и здравоохранения являются наиболее выгодными. Например, дети получили больше доступа к обучению и получению субъективных знаний, а также попытались исследовать себя, подключив их к глобальным платформам с помощью телекоммуникационных услуг.

Цель здесь состоит в том, чтобы предсказать, как сохранить существующих клиентов, переходящих к другому поставщику услуг в будущем. Для любой задачи машинного обучения у нас должны быть соответствующие данные. Поскольку это проблема бинарной классификации, мы предпочитаем базовые алгоритмы классификации, такие как логистическая регрессия, классификация дерева решений, нелинейные модели, такие как машина опорных векторов (SVM), и ансамблевые модели, такие как модели случайного леса. На практике базовые модели с правильным набором функций дадут лучшую предсказательную силу для большинства задач машинного обучения.

Я загрузил данные с маркировкой Telecom из открытого источника с 3333 экземплярами с 20 функциями клиента, подписки и сведений об использовании.

Для решения любой модели машинного обучения очень важно получить соответствующие данные, иначе наши модели могут неточно предсказывать немаркированные данные.

Вся концепция машинного обучения зависит от правильного набора обработанных, организованных или очищенных данных. Данные могут быть нескольких типов, таких как числовые, характеристические, временные ряды, географические данные, уникальные идентификаторы или идентификаторы клиентов и т. д. Работа со всеми видами данных является сложной задачей в моделях машинного обучения.

Обработка отсутствующих данных путем удаления или замены средним значением, медианой или режимом, или мы можем прогнозировать с помощью неконтролируемых моделей, таких как модели кластеризации, или модели регрессии, зависит от размера и типа данных.

Удаление одного признака из сильно коррелированной пары независимых признаков — еще одна задача по снижению сложности модели.

Разработка функций - самая важная концепция, на которую нужно потратить почти много времени, чтобы получить наиболее оптимальные функции и результаты. Экспертиза в предметной области поможет улучшить проектирование функций. Доступно несколько наборов методов разработки функций, но это всегда интересно.

Выбор модели, более сложные модели могут дать более точные результаты, но в основном организации предпочитают простые модели с лучшими результатами для лучшего понимания и большей вычислительной мощности. Поскольку наша проблема с оттоком клиентов является моделью классификации, я выбрал базовые модели с учителем, такие как логистическая регрессия, классификация дерева решений, нелинейные модели, такие как машины опорных векторов (SVM), и модели ансамбля, такие как модели случайного леса. Для проверки модели я разделил весь набор данных на 70% для обучающего набора и 30% для набора для проверки.

Моя модель извлекла уроки из данных, и результаты тестов также хороши с точностью 85%. Модель логистической регрессии. После запуска модели ансамбля, такой как случайный лес, я получил точность 89,05% с тестовым набором. Мы можем сделать намного больше с той же постановкой задачи, чтобы увеличить предсказательную силу модели.

Для файлов кодирования и данных, пожалуйста, не стесняйтесь открывать ссылку на github ниже. В кодировании все поясняется.