Полная дорожная карта разработки проекта

Как в компаниях разрабатываются проекты по науке о данных?

Для чего используется методология AGILE?

В чем конкретно заключается использование SPRINTS?

Роли и обязанности в проектах по науке о данных?

Есть два типа компаний —

1- Продуктовая компания

(бывшие Apple, Tesla, Facebook, Microsoft)

2- Сервисная компания

(Пример — HCL, TCS, Wipro, Infosys)

В сервисных компаниях проекты исходят от клиентских компаний, основанных на продуктах. А в компаниях, основанных на продуктах, проекты исходят от команд искусственного интеллекта и внутренних команд, таких как продажи, производство, доходы и логистика.

Сбор требований

Менеджер по продукту (эксперт по знанию предметной области) и бизнес-аналитик обсуждают друг с другом требования проекта, а затем делят эти требования на SPRINTS.

Это подразделение Sprint основано на методологии Agile. Если, скажем, клиент хочет реализовать проект за три месяца, то на основе установленных сроков менеджер проекта и бизнес-аналитик создают максимальное количество историй и вариантов использования для завершения проекта.

В определенном количестве вариантов использования задача приоритетных вариантов использования завершена. Обычно в спринте крайний срок составляет две недели, чтобы закрыть одну задачу.

ex — вход в систему для одного варианта использования, обучение модели для другого варианта использования

Как только требование будет выполнено, оно будет отправлено команде аналитиков, где аналитик данных и специалист по данным выполнят необходимую работу.

Какой будет первоначальная задача аналитика данных или специалиста по данным, как только они получат требования?

Прежде всего, им необходимо понять, «какие данные требуются и что может быть источником данных». Чтобы решить эту проблему, они разговаривают с менеджером по продукту.

Извлечение данных

Очистка данных может выполняться различными способами. Данные можно извлекать из внутренних баз данных в компаниях или через облачные серверы (большие двоичные объекты AZURE, ведро AWS S3, GCP) или через сторонний API (например, государственные данные, данные о погоде, данные потоковой передачи в реальном времени).

Команда разработчиков больших данных объединила все источники данных и выполнила ETL (извлечение, преобразование, загрузка), собирала данные и сохраняла их в базах данных.

Начало этапов жизненного цикла науки о данных

EDA (исследовательский анализ данных)

Разработка функций

Выбор функции

Обучение модели

Развертывание модели

Переподготовка

Переобучение модели – это обновление развернутой модели машинного обучения новыми данными. Это можно сделать вручную или автоматизировать процесс в рамках практики MLOps. Мониторинг и автоматическое переобучение модели машинного обучения называется непрерывным обучением (CT) в MLOps.

Найдите меня здесь:

Github: https://github.com/21Nimisha

Linkedin: https://www.linkedin.com/in/nimisha-singh-b6183419/