Прежде чем вы начнете относиться к этому блогу очень серьезно, я хочу заявить, что я просто хотел это сделать и хотел посмотреть, смогу ли я победить в случайном угадывании или нет!

Итак, начнем и пристегнемся!

Прежде чем мы начнем, я хочу, чтобы вы ознакомились с набором данных, чтобы иметь представление об особенностях.

О НАБОРЕ ДАННЫХ:

Набор данных о продажах в супермаркетах предлагает всестороннее представление о поведении потребителей, тенденциях в отношении продуктов и экономической динамике в секторе розничной торговли. Этот набор данных обычно включает информацию о различных продуктах, продаваемых в сети супермаркетов, а также соответствующие показатели продаж, демографические данные клиентов и другие соответствующие атрибуты. Анализ этого набора данных может предоставить ценную информацию как для розничных продавцов, так и для аналитиков, стремящихся понять рыночные тенденции, оптимизировать управление запасами и усовершенствовать общие бизнес-стратегии.

АТРИБУТНАЯ ИНФОРМАЦИЯ:

Идентификатор счета-фактуры: Идентификационный номер счета-фактуры, сгенерированного компьютером.

Филиал: Филиал суперцентра (доступны 3 филиала, обозначенные буквами A, B и C).

Город: Расположение суперцентров

Тип клиента: Тип клиентов, зарегистрированный Участниками для клиентов, использующих карты участников, и Обычный для тех, у кого нет карт участников.

Пол: Пол типа клиента

Линия продуктов: Общие группы категорий товаров — Электронные аксессуары, Модные аксессуары, Еда и напитки, Здоровье и красота, Дом и образ жизни, Спорт и путешествия

Цена за единицу: Цена каждого продукта в $

Количество: количество продуктов, купленных клиентом.

Налог: 5% налог на покупку клиента

Итого: Общая стоимость, включая налог

Дата: Дата покупки (запись доступна с января 2019 г. по март 2019 г.)

Время: Время покупки (с 10:00 до 21:00)

Оплата: оплата, используемая покупателем для покупки (доступны 3 способа — наличные, кредитная карта и электронный кошелек).

COGS: Стоимость проданных товаров

Процент валовой прибыли: Процент валовой прибыли

Валовой доход: Валовой доход

Рейтинг: рейтинг стратификации клиентов по их общему опыту покупок (по шкале от 1 до 10).

Этот набор данных предоставляет исчерпывающий обзор доступной для сдачи в аренду недвижимости, что позволяет потенциальным арендаторам принимать обоснованные решения на основе их конкретных предпочтений и требований. А теперь закатываем рукава и приступаем к работе!

Я взял набор данных с веб-сайта Kaggle. (Ссылка приведена ниже):



Наблюдения

Прежде чем мы перейдем к некоторым цифрам, важно, чтобы вы просмотрели данные и изучили любые возможные выводы, что я и сделал! и вот некоторые из хороших возможных интерпретаций, которые мы можем принять (начиная с категориальных столбцов, т.е. нечисловых столбцов)

Категориальные столбцы

Числовые столбцы

Некоторые другие наблюдения, которые могут оказаться полезными!

ВИЗУАЛИЗАЦИЯ ДАННЫХ

Больше визуализаций, которых вы можете достичь с помощью библиотеки AUTOVIZ. Вот как вы можете это сделать!

ПРЕОБРАЗОВАНИЯ:

Я использовал преобразователь столбца, чтобы преобразовать категориальные столбцы в числовые значения. Я использовал StandarScaler и OneHotEncoding в качестве двух основных методов преобразования.

ВЫБОР МОДЕЛИ

Функция потерь

Таким образом, модель, которую я обучал, чтобы знать, способна ли она предсказать, какую линейку продуктов покупатель купит с помощью других функций, с треском провалилась. Вы могли ясно видеть, что моя модель была верна только на 15%, случайная догадка была бы лучшим поводом для этой вещи.

но подождите, мы можем улучшить это и многое другое, что мы могли бы сделать!

Проект загружен и находится в открытом доступе для использования, вот ссылка:



Способы повысить точность в некоторой степени!

  1. Удалите ненужные столбцы (по понятным причинам), вы видите, что я оставил некоторые столбцы, которые могут быть ненужными.
  2. Кажется, что наши данные не подходят, поэтому попробуйте разные возможности, такие как проверка K-кратности, перекрестная проверка и т. д.
  3. Попробуйте использовать некоторые методы регуляризации, такие как L1 и L2, которые можно использовать.
  4. Я ограничился моделированием белого ящика, но вы можете использовать нейронные сети, если хотите!

Если вам нравится то, что я делаю, подарите мне немного любви и поддержки! (Я новичок в этом!)

Мой собственный сайт:

Рахул Ананд

Другие социальные платформы, которые я использую на данный момент:

Линкедин, Инстаграм