Полная дорожная карта разработки проекта
Как в компаниях разрабатываются проекты по науке о данных?
Для чего используется методология AGILE?
В чем конкретно заключается использование SPRINTS?
Роли и обязанности в проектах по науке о данных?
Есть два типа компаний —
1- Продуктовая компания
(бывшие Apple, Tesla, Facebook, Microsoft)
2- Сервисная компания
(Пример — HCL, TCS, Wipro, Infosys)
В сервисных компаниях проекты исходят от клиентских компаний, основанных на продуктах. А в компаниях, основанных на продуктах, проекты исходят от команд искусственного интеллекта и внутренних команд, таких как продажи, производство, доходы и логистика.
Сбор требований
Менеджер по продукту (эксперт по знанию предметной области) и бизнес-аналитик обсуждают друг с другом требования проекта, а затем делят эти требования на SPRINTS.
Это подразделение Sprint основано на методологии Agile. Если, скажем, клиент хочет реализовать проект за три месяца, то на основе установленных сроков менеджер проекта и бизнес-аналитик создают максимальное количество историй и вариантов использования для завершения проекта.
В определенном количестве вариантов использования задача приоритетных вариантов использования завершена. Обычно в спринте крайний срок составляет две недели, чтобы закрыть одну задачу.
ex — вход в систему для одного варианта использования, обучение модели для другого варианта использования
Как только требование будет выполнено, оно будет отправлено команде аналитиков, где аналитик данных и специалист по данным выполнят необходимую работу.
Какой будет первоначальная задача аналитика данных или специалиста по данным, как только они получат требования?
Прежде всего, им необходимо понять, «какие данные требуются и что может быть источником данных». Чтобы решить эту проблему, они разговаривают с менеджером по продукту.
Извлечение данных
Очистка данных может выполняться различными способами. Данные можно извлекать из внутренних баз данных в компаниях или через облачные серверы (большие двоичные объекты AZURE, ведро AWS S3, GCP) или через сторонний API (например, государственные данные, данные о погоде, данные потоковой передачи в реальном времени).
Команда разработчиков больших данных объединила все источники данных и выполнила ETL (извлечение, преобразование, загрузка), собирала данные и сохраняла их в базах данных.
Начало этапов жизненного цикла науки о данных
EDA (исследовательский анализ данных)
Разработка функций
Выбор функции
Обучение модели
Развертывание модели
Переподготовка
Переобучение модели – это обновление развернутой модели машинного обучения новыми данными. Это можно сделать вручную или автоматизировать процесс в рамках практики MLOps. Мониторинг и автоматическое переобучение модели машинного обучения называется непрерывным обучением (CT) в MLOps.
Найдите меня здесь:
Github: https://github.com/21Nimisha
Linkedin: https://www.linkedin.com/in/nimisha-singh-b6183419/