Анализ преступности в Чикаго

Кори Скамман, Демпси Уэйд и Сэм Циммерман

Для нашего среднесрочного проекта «Введение в искусственный интеллект» (CSCI 379) наша группа решила изучить, как ИИ может помочь анализировать и прогнозировать преступность и уровень преступности в Чикаго на основе многолетних полицейских отчетов городов. Мы также намерены определить, есть ли какие-либо корреляции между переменными в наборе данных. Примером этого может быть определение того, как местоположение влияет на вероятность домашнего насилия и вероятность ареста. Для этого мы используем комбинацию анализа ассоциативных правил, статистического анализа и нейронных сетей.

Наш набор данных для этого проекта — это записи полиции Чикаго с 2001 по 2017 год, содержащие информацию о каждом аресте. Некоторой важной информацией в этих записях является номер дела, дата, тип преступления, район проживания, если был произведен арест, и если преступление связано с домашними делами. Весь набор данных составляет около 2 ГБ данных и содержит сотни тысяч записей. Поскольку в наших данных есть некоторые нерелевантные переменные и недостающая информация, нам сначала пришлось очистить наш набор данных, чтобы он был совместим с различными типами программного обеспечения, которое мы использовали. Как только это было закончено, мы смогли продвинуться вперед с нашей реализацией.

Наш первый подход заключался в использовании анализа частых шаблонов. Используя Tensorflow и априори, мы смогли глубже погрузиться в набор данных. Нам было очень любопытно выяснить, какие атрибуты тесно связаны друг с другом. В нашем анализе мы сгруппировали набор данных по разным переменным, чтобы найти поддержку для каждого атрибута внутри. Например, когда мы сгруппировали наш набор данных по формуле «Бытовые = Истина», мы обнаружили, что уровень арестов составляет 20%, а 61% инцидентов в семье связаны с нанесением побоев. Точно так же, когда мы сгруппировали Арест = Истина, мы обнаружили поддержку 25% для кражи, 23% для нанесения побоев и 19% для преступного ущерба, как наших трех самых высоких атрибутов. Затем мы использовали частый анализ шаблонов, чтобы найти самую высокую частоту арестов для атрибутов. Мы обнаружили, что процент арестов за поджог составляет 90%, из чего логически следует, что преступление вряд ли будет классифицироваться как поджог, если нет мотива. Мы также обнаружили, что за наркотики арестовывали в 37% случаев, что почти вдвое превышает средний показатель арестов.

На изображении ниже показан один из результатов нашего частого анализа шаблонов. Это результат, когда мы использовали «Arrest = False». 33 - это числовая метка для кражи, и поддержка указывает, что 25% невыполненных арестов были кражей. 2 относится к батарее, а 6 — к криминальному ущербу.

Наш второй подход заключался в создании нейронной сети с помощью Keras и бэкэнда TensorFlow. Цель состояла в том, чтобы использовать общее количество преступлений каждый год, чтобы предсказать количество преступлений в 2020 году. Чтобы сделать прогноз, мы решили использовать предыдущие пять лет, чтобы угадать количество преступлений в следующем году. Чтобы смоделировать это решение, во входных слоях нашей нейронной сети есть пять узлов. Это распространяется до одного выходного узла, который будет результирующим прогнозом количества преступлений в следующем году. Одна проблема, связанная с нашими данными здесь, заключается в том, что нет полной записи за 2019 год. Поскольку это число не является точным, оно может оказать значительное влияние на прогноз на 2020 год.

Последним нашим подходом был статистический анализ. Мы составили гистограммы преступлений по местонахождению и арестам, подсчитали соответствующую статистику и выполнили ассоциативный тест хи-квадрат. Чтобы приспособить наше статистическое программное обеспечение, мы использовали преступления только за 2012–2017 годы, и нам пришлось дополнительно урезать набор данных, чтобы иметь совпадающие переменные длины. Мы обнаружили, что в общине 25 произошло значительное количество преступлений по сравнению с другими районами. Чикаго можно разделить на 99 уникальных общественных районов, каждый из которых относится к разным районам Чикаго. 25 относится к Вест-Сайду Чикаго, где есть исторические социально-экономические проблемы, а также насилие со стороны банд и стрельба. Вестсайд Чикаго имеет небольшое количество внутренних дел по сравнению с общим количеством преступлений, что подтверждает наше более раннее утверждение о том, что этот район в основном заполнен групповым насилием. Из всех преступлений в Вест-Сайде Чикаго лишь немногим более 50% случаев арестовываются, а в других общинах этот процент еще ниже. Из примерно 100 000 записей во всем Чикаго только 27,2% случаев являются арестами. Это значение варьируется в зависимости от совершенного преступления, поскольку для некоторых преступлений процент арестов выше и ниже. Наиболее распространенными видами совершаемых преступлений являются кражи и нанесение побоев. Ниже приведен ассоциативный тест хи-квадрат для наблюдения за связью между типом преступления и тем, был ли произведен арест или нет. Согласно этим данным, арест производится только в 10% случаев при краже и в 18% случаев при нанесении побоев.

Наши результаты и анализ могут быть полезны полицейским управлениям, но мы должны учитывать этические и социальные последствия таких данных и алгоритмов. Компьютеры и технологии уже расширили возможности полиции в отношении сбора данных. Преступления в прошлом часто оставались незарегистрированными или просто оставались на бумаге, тогда как в настоящее время все преступления регистрируются в компьютерной системе и сопровождают людей всю их жизнь. Это продвижение отпугнуло преступность, поскольку люди, скорее всего, не смогут удалить какие-либо инциденты из своих записей. С развитием технологий и идеей алгоритмов, которые могут предсказывать будущие преступления, мы должны думать об этических и социальных последствиях, которые с этим связаны. Наш набор данных по своей сути предвзят, поскольку он отслеживает только успешные аресты и сообщения о преступлениях с неудачными арестами. Существует непостижимое количество совершенных преступлений, которые не включены в набор данных, что искажает набор данных от реальности. Кроме того, поскольку алгоритмы учатся на данных, на которых мы их обучаем, можно с уверенностью предположить, что эти алгоритмы извлекут погрешности из данных. Например, большая часть преступников, как правило, афроамериканцы и латиноамериканцы с низким доходом. Есть много широко распространенных социально-экономических причин, почему это так, но это не главное. Любой алгоритм прогнозирования преступлений, который у нас есть, будет получать данные, полные записей афроамериканцев и латиноамериканцев с низким доходом. Учитывая, как эти алгоритмы обучаются, алгоритмы затем начнут предсказывать, что афроамериканцы и латиноамериканцы будут совершать преступления в будущем. Проблема в том, что технологии начнут поддерживать стереотипы общества об этих людях, способствующих расовому угнетению. Кроме того, поскольку технология часто считается «правильной», поскольку она основана на науке и математике, люди, скорее всего, не будут подвергать сомнению результаты этого предвзятого алгоритма прогнозирования преступлений. Эти предубеждения в наших данных, а затем и в нашем алгоритме могут привести к несправедливым арестам и угнетению определенной демографической группы.

Если мы будем работать над этим в будущем, мы хотели бы расширить методы, которые мы использовали, а также уточнить и добавить к уже проделанной работе. Мы хотели бы повысить точность нашей нейронной сети и дополнительные возможности прогнозирования, такие как использование времени и местоположения для прогнозирования типа преступления.

использованная литература

Браунли, Дж. (3 октября 2019 г.). Ваш первый проект глубокого обучения на Python с помощью Keras Step-By-Step. Получено 1 ноября 2019 г. с https://machinelearningmastery.com/tutorial-first-neural-network-python-keras/.

Реманан, С. (2 ноября 2018 г.). Добыча правил ассоциации. Получено 25 октября 2019 г. с https://towardsdatascience.com/association-rule-mining-be4122fc1793.

Рашка, С. (nd). Получено 1 ноября 2019 г. с http://rasbt.github.io/mlxtend/.

Наш набор данных

Карри32. (2017, 28 января). Преступления в Чикаго. Получено с https://www.kaggle.com/currie32/crimes-in-chicago/data.