Прежде чем вы начнете относиться к этому блогу очень серьезно, я хочу заявить, что я просто хотел это сделать и хотел посмотреть, смогу ли я победить в случайном угадывании или нет!
Итак, начнем и пристегнемся!
Прежде чем мы начнем, я хочу, чтобы вы ознакомились с набором данных, чтобы иметь представление об особенностях.
О НАБОРЕ ДАННЫХ:
Набор данных о продажах в супермаркетах предлагает всестороннее представление о поведении потребителей, тенденциях в отношении продуктов и экономической динамике в секторе розничной торговли. Этот набор данных обычно включает информацию о различных продуктах, продаваемых в сети супермаркетов, а также соответствующие показатели продаж, демографические данные клиентов и другие соответствующие атрибуты. Анализ этого набора данных может предоставить ценную информацию как для розничных продавцов, так и для аналитиков, стремящихся понять рыночные тенденции, оптимизировать управление запасами и усовершенствовать общие бизнес-стратегии.
АТРИБУТНАЯ ИНФОРМАЦИЯ:
Идентификатор счета-фактуры: Идентификационный номер счета-фактуры, сгенерированного компьютером.
Филиал: Филиал суперцентра (доступны 3 филиала, обозначенные буквами A, B и C).
Город: Расположение суперцентров
Тип клиента: Тип клиентов, зарегистрированный Участниками для клиентов, использующих карты участников, и Обычный для тех, у кого нет карт участников.
Пол: Пол типа клиента
Линия продуктов: Общие группы категорий товаров — Электронные аксессуары, Модные аксессуары, Еда и напитки, Здоровье и красота, Дом и образ жизни, Спорт и путешествия
Цена за единицу: Цена каждого продукта в $
Количество: количество продуктов, купленных клиентом.
Налог: 5% налог на покупку клиента
Итого: Общая стоимость, включая налог
Дата: Дата покупки (запись доступна с января 2019 г. по март 2019 г.)
Время: Время покупки (с 10:00 до 21:00)
Оплата: оплата, используемая покупателем для покупки (доступны 3 способа — наличные, кредитная карта и электронный кошелек).
COGS: Стоимость проданных товаров
Процент валовой прибыли: Процент валовой прибыли
Валовой доход: Валовой доход
Рейтинг: рейтинг стратификации клиентов по их общему опыту покупок (по шкале от 1 до 10).
Этот набор данных предоставляет исчерпывающий обзор доступной для сдачи в аренду недвижимости, что позволяет потенциальным арендаторам принимать обоснованные решения на основе их конкретных предпочтений и требований. А теперь закатываем рукава и приступаем к работе!
Я взял набор данных с веб-сайта Kaggle. (Ссылка приведена ниже):
Наблюдения
Прежде чем мы перейдем к некоторым цифрам, важно, чтобы вы просмотрели данные и изучили любые возможные выводы, что я и сделал! и вот некоторые из хороших возможных интерпретаций, которые мы можем принять (начиная с категориальных столбцов, т.е. нечисловых столбцов)
Категориальные столбцы
Числовые столбцы
Некоторые другие наблюдения, которые могут оказаться полезными!
ВИЗУАЛИЗАЦИЯ ДАННЫХ
Больше визуализаций, которых вы можете достичь с помощью библиотеки AUTOVIZ. Вот как вы можете это сделать!
ПРЕОБРАЗОВАНИЯ:
Я использовал преобразователь столбца, чтобы преобразовать категориальные столбцы в числовые значения. Я использовал StandarScaler и OneHotEncoding в качестве двух основных методов преобразования.
ВЫБОР МОДЕЛИ
Функция потерь
Таким образом, модель, которую я обучал, чтобы знать, способна ли она предсказать, какую линейку продуктов покупатель купит с помощью других функций, с треском провалилась. Вы могли ясно видеть, что моя модель была верна только на 15%, случайная догадка была бы лучшим поводом для этой вещи.
но подождите, мы можем улучшить это и многое другое, что мы могли бы сделать!
Проект загружен и находится в открытом доступе для использования, вот ссылка:
Способы повысить точность в некоторой степени!
- Удалите ненужные столбцы (по понятным причинам), вы видите, что я оставил некоторые столбцы, которые могут быть ненужными.
- Кажется, что наши данные не подходят, поэтому попробуйте разные возможности, такие как проверка K-кратности, перекрестная проверка и т. д.
- Попробуйте использовать некоторые методы регуляризации, такие как L1 и L2, которые можно использовать.
- Я ограничился моделированием белого ящика, но вы можете использовать нейронные сети, если хотите!
Если вам нравится то, что я делаю, подарите мне немного любви и поддержки! (Я новичок в этом!)