Упрощение сложного машинного обучения с меньшим количеством кода при участии ANAI

Демократизация ИИ с помощью ANAI.

Знаете ли вы:

63% компаний все еще экспериментируют с ИИ
Проекты AI / ML занимают кварталы и годы, прежде чем они будут введены в эксплуатацию.

Хотите узнать причину?

Это происходит потому, что они много борются с различными этапами, необходимыми для создания хороших Моделей; по иронии судьбы, эти этапы даже не включают в себя создание моделей машинного обучения. Вместо этого наборы идут до создания модели и после создания модели.
Эти этапы, вызывающие проблемы, включают прием данных в систему, предварительную обработку данных и разработку функций. Затем, после обучения модели, отслеживание экспериментов с моделью, развертывание этой модели и управление развернутой моделью.

Итак, вы, должно быть, думаете, есть ли какой-нибудь инструмент или способ, где все можно интегрировать с помощью очень нескольких строк кода. Да, мой друг, один инструмент покрывает все это. Название инструмента….. ANAI

ANAI или AI (зависит от того, как вы интерпретируете)

существительное[ C ]

- Простая, масштабируемая, интегрированная платформа «все в одном» ML

- От приема данных до предварительной обработки данных, разработки функций, обучения модели, пояснений модели, развертывания модели и управления моделью. ANAI покрыл все

- Легко превосходит и обеспечивает наилучшую производительность для любой системы на основе ИИ

Я использую ML в течение последних 4-5 лет. Когда я был новичком (хотя я все еще новичок), было сложно изучить все библиотеки, необходимые для выполнения различных шагов, прежде чем даже обучать Модели.

В среднем требуется 20 строк кода для загрузки данных, получения описания данных, кодирования данных, масштабирования данных и разделения данных на обучающие и тестовые наборы. Так что я всегда нахожу это ненужным, хотя это было необходимо. Но это не относится к ANAI.

В наши дни «Меньше значит больше».

Таким образом, с помощью ANAI мы можем принимать данные в одной строке, суммировать данные в одной строке, масштабировать/кодировать/разделять/удалять в одной строке и даже обучать модель в одной строке. Увлекательно, не так ли?

В этом блоге мы собираемся использовать версию ANAI с открытым исходным кодомв одном из наборов данных из Kaggle. Итак, начнем, а?

1. Установка АНАИ

pip install anai-opensource

2. Импорт ANAI

import anai
from anai.preprocessing import Preprocessor

3. Загрузка данных

Этот шаг необязателен и необходим только в том случае, если вы хотите использовать данные где-либо, кроме обучения.

df = anai.load(df_filepath = '../input/stroke-prediction-dataset/healthcare-dataset-stroke-data.csv')

ANAI использует Modin[dask] в качестве основы для обработки данных, поэтому вы можете использовать большой набор данных не беспокоясь о памяти.

4. Предварительная обработка

prep = Preprocessor(dataset = df, target = 'stroke')

а) Сводка данных

ANAI предоставляет сводное представление набора данных на одной панели. Эта сводка включает количество записей, переменных, ячеек, отсутствующих значений, повторяющихся значений и даже количество аномалий.

summary = prep.summary()
summary.head(10)

b) Сводка на уровне столбцов

Эта функция дает отчет уровня столбца из набора данных.

column_summary = prep.column_summary()
column_summary.head(24)

5. Обучение моделей (лучшая часть)

Мы собираемся обучить 5 моделей машинного обучения от ANAI.

Помните, я сказал, что загрузка данных является необязательным шагом, поскольку anai.run() может автоматически загружать набор данных из файла.

Здесь нашей целевой переменной из этого набора данных является столбец Stroke.

ai = anai.run(filepath = '../input/stroke-prediction-dataset/healthcare-dataset-stroke-data.csv', target = 'stroke', predictor = ['rfc', 'cat', 'xgb', 'lgbm', 'ext'], except_columns = ['id'])

Вы заметили, что в anai.run() мы не указали задачу? Потому что ANAI определяет задачу автоматически.

ANAI — это платформа ИИ для ИИ, движок которой автоматически определяет задачу для Модели.

ANAI потребовалось 144,39 секунды для обучения моделей вместе с объединением всех моделей.

6. Пояснения

Здесь мы собираемся объяснить лучшую модель

a) Объяснения перестановок

ai.explain('perm')

b) Объяснения SHAP

ai.explain('shap')

7. Таблица лидеров

Мы можем видеть таблицу лидеров обученных моделей, как это.

ai.result()

Код :

Блокнот доступен здесь, чтобы вы могли с ним поиграть.

Обзор:

В этом блоге мы узнали, что такое ANAI и как мы можем использовать ANAI из Ingesting Data. к пояснениям к модели

Использованная литература:

Набор данных для прогнозирования инсульта: www.kaggle.com/datasets/fedesoriano/stroke-prediction-dataset
АНАИ: github.com/Revca-ANAI/ANAI
Мой Kaggle: www.kaggle.com/d4rklucif3r
Мой GitHub: github.com/d4rk-lucif3r
Подробнее об ANAI: www.anai.io