А. Введение

Это простой пример того, как анализ данных может помочь нам принимать решения. Полный код Python доступен по ссылке GitHub в конце.

Описание проблемы

Люди переезжают в другие города из-за работы, отношений, перемены в школе своего ребенка или по другим личным причинам. Когда они переезжают в новый район, не было бы полезно, если бы они могли сравнить этот район с районом, в котором они жили раньше? Я, конечно, найду такое сравнение действительно удобным, чтобы принять решение. Здесь я показал сходство между районами Копенгагена и Мальмё, городов Дании и Швеции.

Помимо перемещения между близлежащими городами, многие люди мигрировали в Скандинавию за последние два десятилетия и продолжают это делать. По состоянию на 2017 год общая численность иммигрантов в Дании и Швеции составляла 768 275 и 1 877 050 человек соответственно. Эти данные также помогают им увидеть, чем районы отличаются друг от друга и какие привлекательные места могут предложить районы для них и их семьи.

Кроме того, результаты этой работы могут быть использованы владельцами бизнеса, чтобы увидеть, каких площадок не хватает или их нет в конкретном районе. Затем они могут принять обоснованное решение о создании соответствующего бизнеса в этом районе, чтобы всегда иметь клиентов и гарантированную прибыль.

Используемые данные

Данные содержат список районов Копенгагена и Мальмё вместе с их соответствующими географическими координатами, список мест проведения (полученный с помощью API Foursquare).

Б. Методология

Во-первых, мы получаем необходимые данные, сочетая чтение из Excel и просмотр веб-страниц из Википедии. Затем эти данные очищаются путем переименования столбцов и удаления других ненужных столбцов. Далее географические координаты получаются с помощью библиотеки geopy. Адрес преобразуется в значения широты и долготы. Затем выбросы удаляются. Некоторые районы имеют совершенно неверные географические координаты. Наличие этих окрестностей вызывает проблемы, когда мы рисуем листы. Эти районы позже показаны на карте. Отображаются первые 20 строк данных.

Как только мы получим географические координаты, районы можно отобразить на карте с помощью folium, библиотеки рендеринга карт. Эти районы будут сгруппированы на основе их сходства.

С учетными данными Foursquare для разработчика и определяемой пользователем функцией мы можем получить список мест, куда можно пойти для каждого района. Foursquare имеет одну из самых больших баз данных рекомендуемых мест для посещения в любом месте. Показаны несколько строк этой результирующей таблицы.

Количество мест, перечисленных для каждого района, отображается в виде гистограммы. Максимальное количество мест, которые можно найти, было установлено на 50. Можно заметить, что для некоторых районов количество очень мало (менее 10). Скорее всего, это связано с отсутствием данных в Foursquare. Людям еще предстоит найти хорошие места и опубликовать их на Foursquare.

Поскольку мы будем сравнивать все районы друг с другом, лучше удалить районы с небольшим количеством мест, чтобы получить справедливое сравнение. Отмеченные красным удаляются из таблицы.

Затем выполняется метод, известный как однократное кодирование. Он в основном группирует строки по районам и вставляет все найденные категории мест в виде столбцов. Позже мы используем метод k-средних, чтобы найти похожие районы на основе мест, которые они имеют в них.

Кластеризация K-средних

Это простой неконтролируемый метод машинного обучения, который может объединять похожие точки данных. Каковы критерии сходства рядов (или окрестностей)? Ну, это евклидово расстояние от центров скоплений. Метод Elbow помогает выбрать оптимальное количество кластеров. На приведенном ниже графике, где инерция представляет собой сумму квадратов расстояний от выборок до ближайшего центра кластера, мы выбираем точку (значение k), от которой график становится линейным. Это более линейно от k = 5, и это выбранное значение k.

Выбор k = 2 приведет только к двум типам окрестностей. Группа из двух человек не поможет читателю разобраться в ситуациях, упомянутых в описании проблемы.

С. Результаты

После применения метода k-средних мы смотрим на различные сформированные кластеры вместе с их количеством. Большинство районов сгруппированы в два кластера (метка 1 и метка 2).

Когда у нас есть эта таблица, мы добавляем значения широты и долготы для окрестностей, чтобы мы могли нанести их на карту. Назначение разных цветов для меток кластера: [черный, зеленый, оранжевый, синий, пурпурный] для
[метка 0, метка 1, метка 2, метка 3, метка 4], дает нам представление, показанное ниже.

Метки всплывающих окон определяются таким образом, что они отображают соседство, за которым следует его эквивалентная метка кластера. Пример всплывающего окна показан на карте.

С помощью этой карты мы можем узнать, какие районы похожи и/или не похожи. Обратите внимание, что в городе Мальмё меньше районов. Это потому, что нам пришлось исключить районы с небольшим количеством категорий мест проведения (из гистограммы).

Объединим все похожие метки кластера в одну и просуммируем значения всех ее столбцов. Это закончилось бы этой таблицей ниже. Число, увиденное против каждого района, является общим количеством категорий мест проведения.

После дальнейшего анализа мы можем перечислить лучшие места, которые можно увидеть в каждом районе типа кластера. Это делается путем сортировки каждой строки по отдельности и получения имен первых n столбцов (здесь n равно 14).

Наиболее часто встречающиеся места в кластере 0:
Ресторан, Пекарня, Супермаркет, Парк, Тренажерный зал, Кафе, Продуктовый магазин, Пицца, Поезд, Бургерная, Бар, Плаза, Закусочная, Торговый центр(Установить 0)

В кластере 1 чаще всего встречаются следующие места:
продуктовый магазин, ресторан, пиццерия, парк, дисконтный магазин, тренажерный зал, пекарня, кафе, супермаркет, автобус, круглосуточный магазин, поезд, стадион, торговый центр (Набор 1)

В кластере 2 чаще всего встречаются следующие заведения:
Ресторан, продуктовый магазин, тренажерный зал, супермаркет, кафе, пиццерия, поезд, пекарня, магазин электроники, автобус, аптека, гостиница, бар, кафе-мороженое (набор 2)

Наиболее часто встречающиеся заведения в кластере 3:
Ресторан, Кафе, Бар, Кофейня, Пекарня, Пицца, Тренажерный зал, Кафе-мороженое, Плаза, Бургерная, Парк, Кинотеатр, Пиво, Супермаркет (набор 3)

В кластере 4 чаще всего встречаются следующие заведения:
Ресторан, Кафе, Пекарня, Парк, Бар, Бургерная, Пивная, Магазин десертов, Кофейня, Искусство, Книга, Плаза, Детская площадка, Театр(Набор 4)

Подобные списки — хорошее начало для дифференциации кластеров, но будет проще, если их можно будет каким-то образом визуализировать. Ниже мы показываем три способа сравнения и визуализации 5 кластеров.

Тепловая карта

Это единственный график в этом отчете, учитывающий все кластеры. Цвета помогают читателю быстро найти определенное количество мест в любом кластере. Объединение наборов от 0 до 4 находится и используется в качестве меток оси Y. Голубой цвет соответствует счету от 0 до 5.

Мгновенно можно сделать вывод, что в кластерах типа 2 и 3 много ресторанов. Это выгодно для людей, поскольку у них есть из чего выбирать. Это может быть хорошей причиной для переезда в районы, принадлежащие кластеру 2 или 3. Любой, кто хочет открыть новый ресторан, должен знать лучше и не открывать его в этих районах, поскольку он уже достаточно конкурентоспособен.

Ладарная диаграмма

Из подсчета кластеров мы знаем, что две верхние метки кластеров — это 1 и 2. Эти два кластера различаются на приведенной ниже диаграмме. Нанесение на график более двух кластеров было бы беспорядком и могло бы запутать читателя. Объединение множеств 1 и 2 находится и используется как метки на окружности. Внутренние радиальные круги представляют подсчет категорий мест проведения.

Помимо очевидного (рестораны в кластере 2), мы видим, что в кластере 1 есть большое количество продуктовых магазинов. Это привлекательная черта кластера 1, поскольку людям будет удобно иметь много продуктовых магазинов вокруг своего дома. Количество магазинов электроники, баров, магазинов мороженого, отелей, аптек в кластере 1 невелико по сравнению с кластером 2. Так что, возможно, начать бизнес в одной из этих упомянутых категорий в районах, принадлежащих к кластеру 1, было бы неплохо. идея.

Сюжет с пончиками

Этот график полезен, если нам нужно отдельно проанализировать один конкретный тип кластера.

Д. Обсуждение

Исходя из наблюдений, сделанных на основе результатов, я настоятельно рекомендую людям выбирать районы из кластера 2, если они хотят переехать в новое место. Эти районы имеют наибольшее количество различных категорий мест проведения. Я также рекомендую районы из кластера 4 для начинающих предпринимателей, желающих начать прибыльный бизнес. Кластер 4 имеет наименьшее количество площадок.

Е. Заключение

Цель этой работы состояла в том, чтобы предоставить содержательную информацию, которая поможет человеку или бизнесу принять решение. Таким образом, я заключаю, что он действительно сделал это, сравнивая преимущества и недостатки различных районов.

Ссылка на блокнот Jupyter с интерактивными картами

https://nbviewer.jupyter.org/github/Pravin93-Murugesan/Coursera_Capstone/blob/master/Capstone%20Project%20-%20Final.ipynb