В своем предыдущем посте я обсуждал, как машинное обучение может предсказывать, какой кандидат в президенты победит на президентских выборах 2020 года, а также обнаруживать любые аномалии голосования, такие как экспоненциальный рост голосов на выборах 2020 года по сравнению с предыдущими выборами. Ссылку на мой предыдущий пост можно найти здесь: https://medium.com/ai-in-plain-english/what-candidate-did-random-forest-predict-would-win-the-2020-presidential -выборы-2250176a1ba1»

В этом посте я хотел бы обсудить, как машинное обучение может предсказать, какая политическая партия, скорее всего, победит на президентских выборах 2024 года, то есть через четыре года.

Я использовал наборы данных, которые я загрузил и прочитал в своем предыдущем посте, и сформулировал новый набор данных, который состоит из наборов данных для выборов за период с 1976 по 2016 год, а затем добавил результаты выборов за 2020 год. Этот код включен в мой предыдущий пост, и вы не сможете найти его в моей учетной записи GitHub, потому что я не сохранил его там. Однако набор данных сохранен в моей учетной записи GitHub, и вы можете найти его здесь: https://github.com/TracyRenee61/US-presidential-elections-2020/blob/main/series.csv.

После того, как я создал новый набор данных для прогнозирования того, какая партия может победить в президентской гонке 2024 года, я создал новую программу в Google Colab. Затем я импортировал нужные мне библиотеки, такие как pandas, numpy, matplotlib и seaborn.

Как только новая программа была создана и библиотеки были импортированы, я загрузил и прочитал файл .csv, который я создал из двух файлов, которые я получил от MIT и Kaggle:

Я проверил, из чего состоят столбцы в этом файле, и обнаружил, что есть два категориальных столбца и два числовых столбца. Затем я проверил наличие нулевых значений, и их не было, так как я вменил все нулевые значения в свой предыдущий пост: -

В этом случае я выполнил графический анализ своих выводов, используя matplotlib, библиотеку построения графиков. Я обнаружил, что в 2016 году демократическая партия набрала немного больше голосов, чем республиканская, но Дональд Трамп победил на выборах, потому что у него было больше штатов в коллегии выборщиков.

Когда я посмотрел на голоса в 2020 году, за демократическую партию было подсчитано примерно на 15 миллионов голосов больше, чем на предыдущих выборах. Кроме того, на предыдущих выборах за республиканскую партию было подсчитано примерно на 12 миллионов голосов больше. Это увеличение количества голосов частично связано с пандемией COVID-19, когда людям были отправлены открепительные удостоверения, чтобы они вписали свою кандидатуру и отправили в счетную палату по почте.

С голосованием определенно что-то происходило, потому что Меган Маркл и принц Гарри выступили по телевидению и попросили всех проголосовать. Джо Байден также подчеркнул, что хочет, чтобы каждый голос был подсчитан (но опустил слово «законно»).

Ночью 3 ноября 2020 года Дональд Трамп стал явным победителем, но посреди ночи фургоны с миллионами открепительных удостоверений были доставлены на различные пункты подсчета голосов в колеблющихся штатах для подсчета. Зачем нужно было двигать эти бюллетени в темноте ночи? Почему эти бюллетени не были доставлены на пункты подсчета голосов в доме дневного света, чтобы все могли видеть, что происходит, и обеспечить полную прозрачность? Это вопросы, на которые обязательно нужно найти ответы.

Несмотря на все нарушения голосования, имевшие место на этих выборах, кажется очевидным, что рост количества подсчитанных голосов имеет какое-то отношение ко всем открепительным удостоверениям, которые были доставлены на ключевые пункты подсчета голосов рано утром:

После того, как я проанализировал подсчитанные голоса на каждых выборах с 1976 года, я создал набор данных, который будет использоваться для прогнозирования того, какая политическая партия, вероятно, будет избрана в ходе президентской кампании 2024 года. Я использовал сводную таблицу для создания набора данных, со столбцами, обозначающими год выборов: -

Я создал переменные state и party и поместил данные в dataset.state и dataset.party в эти переменные. Причина, по которой я это сделал, заключается в том, что я удалил эти столбцы, но эти данные мне понадобятся ближе к концу программы:

Затем я определил переменные y_train, X_train и X-test, которые будут использоваться для обучения и подбора модели, которая будет создана. X_train — это все столбцы набора данных, кроме последнего, а y_train — последний столбец набора данных. X_test — это все столбцы набора данных, кроме первого. X_train — это набор данных, который будет обучен и вписан в модель, а X_test — это набор данных, на основе которого будет сделан прогноз.

Затем я определил модель, в данном случае это AdaBoostRegressor() с RandomForestRegressor() в качестве базовой оценки. Я добился точности 99,87%, когда предсказал на X_train: -

Затем я предсказал X_test, но не могу указать какую-либо точность, потому что президентская кампания 2024 года еще не состоялась:

Я провел графический анализ голосов и обнаружил, что у демократов прогнозируется немного больше голосов, чем у республиканцев. Однако это не обязательно означает, что победят демократы, потому что коллегия выборщиков определяет, кто станет президентом. Нам просто нужно понаблюдать за этим пространством и посмотреть, насколько хорошо Random Forest покажет себя на следующих президентских выборах, которые состоятся через четыре года.

Код для этого поста можно полностью найти в моей личной учетной записи GitHub, веб-адрес можно найти здесь: https://github.com/TracyRenee61/US-presidential-elections-2020/blob/main/US_Pres_Elections_2024_Random_Forest. ипинб