Взламываем структуру команды Code of Data Science

В современном мире данные — это главное, и наличие команды по науке о данных похоже на наличие секретного оружия для бизнеса, и то, как вы структурируете свою команду по науке о данных, может значительно повлиять на ее эффективность, результативность и способность генерировать ценные идеи.

Вот почему так важно иметь хорошо структурированную команду, способную справиться со сложной работой и обеспечить качественный результат. В этой статье мы рассмотрим некоторые структуры команд для создания команды по науке о данных, которая соответствует вашим потребностям.

Команда Data Science — это группа умных людей, которые собирают, анализируют и анализируют данные, чтобы помочь компаниям принимать обоснованные решения. В команду входят разные роли, такие как аналитики данных, инженеры данных, инженеры по машинному обучению и специалисты по данным, каждый из которых обладает уникальными навыками.

Ради забавы представим эти роли как:

Мне посчастливилось работать в различных организациях по обработке и анализу данных на протяжении многих лет, от небольших стартапов до крупных предприятий, каждое из которых имело свой уникальный подход к MLOps. Давайте рассмотрим несколько структур и обсудим те, которые я бы предложил.

Структура 1 — узкое место

Представьте себе специалиста по данным, который фокусируется на решении математических аспектов проблемы и создает модель в качестве решения. Когда модель готова, они передают ее команде инженеров-программистов. Однако инженеры-программисты не полностью понимают модель; их роль заключается в том, чтобы просто развернуть его, например, настроить на конечной точке или в качестве запланированного задания.

Думаю, вы знаете, почему я называю это структурой узкого места 😉

Структура 2 — «MLOps справятся с этим»

Допустим, вы можете позволить себе роскошь иметь команду MLOps, в которую входят инженер машинного обучения или инженер-программист, который понимает, что такое модель, и может создавать базовые модели), инженер данных, который проектирует, как данные будут поступать в модель и как они будут покидать ее. (т. е. обучение и вывод), сотрудник DevOps, который обеспечивает стабильность и надежность всего в производстве, полноценный специалист по данным, который понимает потребности команды специалистов по данным и может удовлетворить их, и менеджер проекта для хорошей меры.

В этом сценарии команда Data Science занимается математическими аспектами проекта и передает готовый пакет команде MLOps, которая понимает модели и программное обеспечение в достаточной степени, чтобы развернуть его по мере необходимости.

Команда MLOps отвечает за мониторинг и обслуживание развернутой модели, а также может устранять незначительные проблемы с моделью. Об основных проблемах сообщается команде Data Science для дальнейшего анализа. В идеале команда MLOps должна вносить свой вклад в течение цикла проекта Data Science, чтобы убедиться, что созданный пакет легко развертывается и обслуживается в рабочей среде.

Структура 3 — Волчья стая

В этой структуре команды трио, состоящие из одного инженера-программиста и двух специалистов по данным, работают вместе.

Каждое трио отвечает за производство и производство модели при участии и поддержке своих коллег из других трио. В зависимости от сложности проблемы несколько троек могут работать над более мелкими аспектами более крупной задачи Data Science.

Мониторинг и обслуживание каждого компонента является обязанностью трио при поддержке команды DevOps и существующих инструментов DevOps в организации, связанных с мониторингом и оповещением.

Структура 4 – специалист по данным о стероидах

Предполагается, что команда Data Science достаточно зрелая, чтобы создавать модели, и может предоставить упакованные модели команде DevOps. Команда DevOps рассматривает этот пакет как контейнер и развертывает его с требуемым масштабом и надежностью в соответствии со спецификациями развертывания группы обработки и анализа данных.

Команда DevOps настраивает необходимый мониторинг и оповещения, но обе команды DevOps и Data Science действуют в соответствии с этими оповещениями. Спецификации предупреждений устанавливаются и применяются командой специалистов по обработке и анализу данных. Это дрейфы моделей и неверные прогнозы, в то время как DevOps настраивает предупреждения, связанные с масштабированием, и действует в соответствии с ними.

Четкое общение и сотрудничество между командами DevOps и Data Science имеют решающее значение для успеха проекта. Если менеджеры проекта хорошо разбираются в технологиях, они могут облегчить это общение и обеспечить соответствие ожиданий и целей обеих команд. Это может помочь избежать недоразумений и конфликтов и привести к более эффективным и продуктивным рабочим отношениям между двумя командами.

Структура 5 — Присматривайте за учеными-данными

Хорошо, ребята, мы уже рассмотрели пару командных структур для науки о данных, но держитесь крепче, потому что это последняя, которую мы будем обсуждать.

В этой структуре команда MLOps разрабатывает расширение инструментов DevOps, адаптированное для удовлетворения конкретных потребностей группы Data Science. Data Scientist отвечает за создание модели, но ему помогает команда MLOps, чтобы обеспечить бесперебойную работу во время развертывания.

Команда MLOps отвечает за предоставление команде специалистов по обработке и анализу данных правильных инструментов и советов, которые помогут им расширить свои возможности. Команда Data Science с помощью команды MLOps устанавливает спецификации развертывания и развертывает пакет с минимальными усилиями.

Команда Data Science занимается мониторингом и оповещением, в то время как команда MLOps вмешивается в проблемы масштабирования и надежности только в случае необходимости (что в идеале не требуется).

Итак, вот большой вопрос

Какую структуру команды выбрать для моей команды по обработке и анализу данных?

Ответ прост, но сложен: "это зависит".

Но не бойтесь, мы подготовили для вас несколько вопросов, которые помогут вам принять лучшее решение:

Каковы ваши бизнес-цели и как они связаны с вашими проектами по науке о данных?
Какой уровень сотрудничества между исследователями данных и инженерами-программистами вам нужен?
Насколько важно иметь собственный опыт для всего спектра деятельности по науке о данных, от очистки данных до развертывания моделей?
Насколько автономным вы хотите, чтобы ваша команда специалистов по обработке и анализу данных имела право собственности на проект и принятие решений?
Какой технический долг вы готовы взять на себя в своих проектах по науке о данных?
Насколько важно для вашей команды специалистов по обработке и анализу данных иметь возможность быстро реагировать на изменяющиеся потребности бизнеса?
Какой уровень поддержки и ресурсов у вас есть для создания и обслуживания инфраструктуры обработки и анализа данных?
Насколько важно для вашей команды специалистов по обработке и анализу данных иметь возможность сотрудничать и делиться знаниями с другими командами в вашей организации?
Какой уровень риска вы готовы принять с точки зрения производительности модели и потенциальных ошибок?
Насколько важно для вашей команды специалистов по обработке и анализу данных иметь возможность объяснять и интерпретировать свои результаты нетехническим заинтересованным сторонам?

Ответы на эти вопросы помогут вам выбрать наилучшую структуру команды, соответствующую потребностям вашей организации. Имейте в виду, что универсального решения не существует, и каждая структура имеет свои преимущества и недостатки.

В конечном счете, ключ в том, чтобы найти структуру, которая позволит вашей команде специалистов по обработке и анализу данных работать эффективно и добиваться наилучших возможных результатов.