Прошло не так много времени с тех пор, как начался разговор о различиях между учеными и инженерами данных. Область, которая раньше была одной из самых неоднозначных в технологиях, с каждым годом становится все более популярной. Позиции, роли, обязанности еще созревают.

Однако основные отличия уже ясно проявились. В этой статье мы поделимся нашим опытом по сбору команд по науке о данных и разработке данных и дадим представление об их реальных должностных обязанностях и ролях.

Почему различают инженеров данных и специалистов по данным

Согласно отчету технического директора IBM, 87% проектов по науке о данных никогда не выполняются. 80% всех проектов по науке о данных заканчиваются неудачей. В основном это происходит из-за неспособности рынка различать специалистов по данным и инженеров.

Даже сейчас в Интернете на удивление часто можно найти статьи об обязанностях специалистов по данным, хотя некоторые из них относятся к должностной инструкции инженера по данным. Отсутствие понимания того, что могут и чего не могут делать специалисты по данным, приводит к высокому проценту неудач и обычному выгоранию.

Дело в том, что ни дата-сайентисты, ни инженеры не могут действовать самостоятельно. Ученые очень зависят от инженеров в обеспечении инфраструктуры. Если он настроен неправильно, даже самые опытные ученые с отличным знанием сложных расчетных формул не смогут выполнить проект должным образом.

Область разработки и управления данными включает в себя множество специальностей. Инженеры данных и ученые — это лишь некоторые из ролей, необходимых в этой области. Однако эти должности переплетаются — члены команды могут вмешиваться и выполнять задачи, которые технически относятся к другой роли.

Точный состав команды зависит от размера бизнеса:

  • Для стартапов: всю работу с данными может выполнять небольшая команда из 1–3 человек;
  • Для малого бизнеса: компании со штатом от 10 до 50 сотрудников могут обойтись инженерами по данным и специалистами по данным;
  • Для крупных компаний и предприятий: по мере роста объема данных вам потребуется полная команда по управлению данными, чтобы отслеживать сложные процессы. Вы можете визуализировать всю пирамиду, взглянув сюда:

Data Engineer против Data Scientist: направления работы

Кто такой дата-инженер? Инженер данных сосредоточен на создании правильной среды и инфраструктуры для генерации данных. Цель состоит в том, чтобы создать и собрать данные, которые впоследствии будут использоваться для всестороннего анализа.

Основные определения проектирования данных

  • Конвейеры данных: инженеры данных несут ответственность за создание путей (конвейеров), по которым данные проходят через инфраструктуру.
  • Моделирование данных. Инженеры создают концептуальные представления данных — визуальные модели, архитектуры и информационные панели.
  • Обработка данных. Инженеры следят за тем, чтобы данные, используемые в инфраструктуре, были достоверными и качественными. Мы создали полное руководство по качеству данных, с которым рекомендуем вам ознакомиться, так как это важная компетенция для дата-инженеров.

Специалист по данным сосредоточен на интерпретации сгенерированных данных. Это человек, который помогает разобраться в инсайтах, полученных от дата-инженеров. Они полагаются на статистический анализ и расширенные расчеты для получения выводов.

Обязанности специалистов по обработке и анализу данных лежат на стыке бизнес-анализа и инженерии данных, уделяя особое внимание аналитике с одной стороны и технологии обработки данных с другой. В этом и заключается разница между аналитикой данных и наукой о данных. Специалисты по данным также должны иметь опыт разработки программного обеспечения, что необходимо для аналитиков.

Итак, технологическая экспертиза — главное отличие аналитиков данных от специалистов по данным.

Это не выбор "или-или"

Когда компания хочет собрать команду по управлению данными, ей не следует выбирать между инженерами данных и учеными данных. Обе роли очень важны, и одна не может хорошо функционировать без помощи другой.

Без дата-инженеров не будет инфраструктуры, которая могла бы постоянно снабжать команду специалистов по данным высококачественными данными. Они отвечают за проектирование и обслуживание инфраструктуры. Если это не удается, специалистам по данным нечего анализировать.

С другой стороны, даже самая лучшая инфраструктура будет бессмысленной, если она не получит интерпретации. Специалисты по данным замечают тенденции в данных и делают осязаемые выводы — то, что компании могут немедленно использовать в управлении бизнесом, маркетинге и инновациях.

Рабочий процесс в науке о данных против инженерии данных

Если вы планируете собрать команду управления данными, вам необходимо иметь четкое представление о ее повседневных действиях. Уже на этапе найма вам необходимо четко понимать, каковы рутины инженеров данных и ученых, а также различия между ними.

Что такое инженерия данных?

Среди инженеров данных и общих разработчиков, работающих в командах по управлению данными, распространено мнение, что инженер данных — это просто более конкретная должность бэкэнд-инженера. На такие вопросы, как Как стать инженером данных, часто отвечают: Сначала научитесь хорошо управлять данными в качестве инженера по бэкенду — и все это для понимания общей логики разработки.

Взгляните на типичный пример конвейера данных:

Это правда, что обязанности дата-инженеров иногда пересекаются с обязанностями типичного бэкэнд-разработчика или менеджера баз данных; однако есть некоторые отличия.

  • Инженеры данных управляют всеми видами сложных данных. Дата-инженер начального уровня узнает, как построить архитектуру дома данных, настроить модель данных и подключить ее к бизнес-аналитике. Поскольку данные находятся в центре внимания такого эксперта, инженер данных всегда готов ответить на любые вопросы об архитектуре данных.
  • Инженеры данных предоставляют бизнесу надежную аналитику по использованию данных. Такой эксперт анализирует, какая архитектура необходима для ПО, прогнозирует риски и вызовы, создает механизмы отчетности и аналитики.
  • Инженеры данных с самого начала устанавливают стандарты высокого качества для данных. У нас есть Руководство по качеству данных — посмотрите, что делает данные ценными или бесполезными.

Еще один вопрос, который часто возникает у людей по поводу рабочего процесса дата-инженеров: зачем кому-то нужен дата-инженер, если у них уже есть хорошая бэкэнд-команда? Дело в том, что требования к использованию данных растут. Текущие стандарты архитектуры данных невероятно высоки — чтобы соответствовать им, вам нужны специалисты, полностью сосредоточенные на архитектуре данных.

Как работает специалист по данным?

Несмотря на то, что инженеры данных выполняют много аналитической работы при настройке инфраструктуры, настоящая, серьезная аналитика лежит на плечах специалистов по данным. Они уже оснащены инфраструктурой, настроенной инженерами данных, и могут сосредоточиться в основном на анализе и интерпретации.

Основная цель специалиста по данным — решить проблему с данными. Проблема обычно формулируется на деловом языке (например, вам нужно найти предпочтения пользователей, чтобы построить рекомендательную систему в реальном времени).

Специалисты по данным — это те, кто переводит проблему на математический язык, находит реальное решение и преобразует его обратно в интерпретацию, связанную с бизнесом. Они также знают основы разработки баз данных и могут самостоятельно выполнять простые решения — в этом опять же разница между наукой о данных и аналитикой данных.

Процесс решения задач по науке о данных можно условно разделить на шесть этапов:

  • Формирование проблемы. Ученые данных должны исследовать проблему клиента, а также потребности и риски. После получения ясной идеи следующим шагом будет переформулировать задачу в математическую форму.
  • Определение того, какие данные полезны для решения проблемы. Специалисты по данным понимают, как можно получить необходимые данные с помощью существующей инфраструктуры. Если в архитектуру необходимо внести изменения, они сотрудничают с инженерами данных. Результатом этого шага является собранная информация.
  • Обработка данных. Даже качественная инфраструктура не может предоставить готовую информацию. Специалистам по данным необходимо преобразовывать форматы, выявлять ошибки, обнаруживать пропущенные значения и систематизировать записи. Цель состоит в том, чтобы собрать данные в удобной и удобной для просмотра структуре.
  • Определение аналитики высокого уровня. Специалисты по данным смотрят на данные с высоты птичьего полета. Их цель — сначала обнаружить самые большие тенденции и записать высокоуровневые качества набора данных.
  • Погружаемся глубже. Используя машинное обучение, автоматизированные платформы и данные инструментов, ученые проводят глубокий анализ. Они обнаруживают небольшие тенденции в данных и определяют, как они коррелируют с ранее выявленной более широкой картиной.
  • Подведение итогов. Математические тенденции и отношения должны быть преобразованы в действенные бизнес-ценности. Конечная цель специалиста по данным — перевести результаты на язык, понятный заинтересованным сторонам. Это требует глубокого понимания бизнеса и сильных аналитических способностей.

Результатом работы специалиста по данным является полный анализ с четкими и ощутимыми выводами. С помощью такого отчета компания может вносить изменения в свою деятельность и точно измерять их. Затем специалист по данным может повторно проанализировать данные, чтобы увидеть, как изменения процесса трансформируются в различия в данных.

Инжиниринг данных против науки о данных: ролевые требования

Поняв рабочий процесс как инженеров данных, так и специалистов по данным, мы можем кратко обобщить их обязанности. Это поможет вам набрать специалистов и выстроить процесс сотрудничества внутри отдела.

Результатом сотрудничества дата-инженеров и ученых является история, рассказанная заинтересованным сторонам и другим отделам. Вот почему необработанные данные проходят через несколько уровней организации обработки и интерпретации. Чтобы добиться ясности и точности этих выводов, инженеры данных и ученые должны сотрудничать, улучшать инструменты, инфраструктуру и расширять наборы навыков.

Инструменты, используемые инженерами данных и учеными данных

Поскольку рабочий процесс дата-инженеров примерно аналогичен рабочему процессу менеджера данных и бэкэнд-инженера, неудивительно, что они часто используют схожие инструменты. Вот краткое изложение необходимого программного обеспечения.

  • Система управления базами данных: СУБД лежит в основе архитектуры данных. У нас есть полное руководство по реляционным и нереляционным базам данных и их системам управления — взгляните, поскольку это фундаментальная концепция управления данными. Наиболее распространенными СУБД являются MySQL, SQL Server, PostgreSQL (реляционные базы данных), Mongo DB, DocumentDB, Cassandra (нереляционные базы данных).
  • Инструменты обработки данных и кластерных вычислений. Программное обеспечение, такое как Spark и Hadoop, используется как инженерами данных, так и учеными данных. Это помогает организовать данные и поддерживать высокое качество. Мы предоставляем сравнение между Spark и Hadoop в нашем блоге, так что зацените и его.
  • Наиболее распространенными языками программирования, используемыми инженерами данных, являются Python, C++, Java и Scala.

Поскольку роль дата-инженера ближе к разработке программного обеспечения, он также будет использовать множество разработок и инструментов DevOps для отправки результатов своей работы. Они также могут использовать бэкэнд-инструменты и фреймворки.

Специалисты по данным гораздо больше сосредоточены на аналитических аспектах управления данными, чем на технических. Итак, они используют статистические инструменты, системы машинного обучения, компьютерное программное обеспечение и т. д. Давайте кратко рассмотрим самые популярные инструменты.

  • Инструменты для управления большими объемами данных: специалистам по данным необходимо программное обеспечение, которое может систематизировать информацию. Обычно мы используем Pandas — это отличная библиотека с открытым исходным кодом для обработки данных.
  • Инструменты обработки в реальном времени. Специалисты по данным могут ускорить обработку с помощью Apache Storm, Apache Kafka, Amazon Kinesis и других платформ реального времени.
  • Бизнес-аналитика: такие инструменты, как Tableau, Microstrategy, QlikView и другие, позволяют форматировать анализ данных и формулы для сложных вычислений.
  • Пакеты Python для научного анализа и вычислений: мы уже упоминали Pandas, но есть и другие пакеты. Например, NumPy, Matplotlib и Scikit-Learn используются для написания фреймворков машинного обучения для обработки данных и выполнения сложных вычислений.

Наборы инструментов для дата-инженеров и специалистов по данным часто пересекаются, но все же есть много различий. Как правило, инженеры сосредоточены на инструментах, позволяющих настроить потоки извлечения, преобразования, загрузки (ETL-потоки), в то время как специалисты по данным часто обращаются к статистическим платформам и пакетам.

Спрос на инженеров данных против специалистов по данным

Согласно результатам поиска Glassdoor, количество вакансий у дата-инженеров в пять раз выше, чем у специалистов по данным. Хотя обе позиции являются одними из самых востребованных, разница заметна.

Причина проста: чтобы запустить инфраструктуру данных, вам нужно много инженеров данных. Что касается специалистов по данным, то для интерпретации больших объемов данных достаточно нескольких экспертов с большим опытом в области автоматизации.

Сотрудничество между инженерами данных и учеными данных

Когда мы описывали как обязанности, так и рабочие процессы, мы упомянули, что постоянное сотрудничество имеет решающее значение. Однако лучше уточнить, где именно дата-инженеры и ученые могут помочь друг другу и какие проблемы обычно возникают в процессе.

Проблемы сотрудничества между учеными данных и инженерами

Основная проблема заключается в непонимании обязанностей другой стороны. Если организация не определит четкие роли для каждого эксперта по данным, команда быстро запутается и не сможет эффективно сотрудничать. Это непонимание неизбежно порождает неуважение к другой стороне и снижает эффективность сотрудничества.

Другая проблема более глобальная: общее непонимание между всеми специалистами по данным и остальной командой. Если специалисты по данным и инженеры одинаково изо всех сил пытаются понять свое место в рабочем процессе, их коллеги также неправильно понимают обязанности, и общение не будет продуктивным.

Как обеспечить прозрачность сотрудничества?

  • Используйте скоординированную платформу управления проектами для отслеживания всех задач, связанных с данными;
  • Иметь указанный документ, определяющий роли и обязанности всех членов команды;
  • Проводить регулярные совместные встречи для обсуждения состояния инфраструктуры, недавно обнаруженных инсайтов и т. д.;
  • Дайте обеим сторонам возможность внести свой вклад и предложить улучшения.

Как синхронизировать специалистов по данным и инженеров со всей командой?

  • Объясните разработчикам важность управления данными. Важно объяснить, почему данные жизненно важны для всех областей разработки программного обеспечения. Если специалисты по данным также сотрудничают с другими отделами, к рабочему процессу должны подключиться специалисты из этих областей.
  • Поощряйте взаимодействие команды управления данными с дизайном продукта, маркетингом и продажами. Анализ данных имеет решающее значение в этих областях. Кроме того, уменьшение масштаба чисто технологических проблем улучшает бизнес-аналитику экспертов и приводит к более высокому качеству анализа.
  • Поощряйте взаимное сотрудничество. Распространенной проблемой сотрудничества специалистов по данным и инженеров является отсутствие понимания инженерных и аналитических аспектов. Компания должна поощрять обмен опытом, инвестировать в самосовершенствование и следить за тем, чтобы все были на одной волне.

Инженеры данных и специалисты по данным имеют много общего с другими областями разработки программного обеспечения. Обязанности дата-инженера могут быть аналогичны обязанностям бэкенд-разработчика или менеджера базы данных, что приводит к путанице в команде. Специалисты по данным сталкиваются с аналогичной проблемой, поскольку может быть сложно провести грань между специалистом по данным и аналитиком данных.

Важно уточнить, где начинаются обязанности одной должности и заканчиваются обязанности другой.

Нижняя линия

И инженеры данных, и специалисты по данным имеют решающее значение для поддержания долгосрочной и эффективной инфраструктуры данных. Первым шагом к началу эффективного сотрудничества является четкое определение ролей и обязанностей. Надеюсь, эта статья помогла вам провести границу между двумя частями и представить себе распределение ответственности.

Конечно, точное распределение этих ролей зависит от потребностей проекта и личных навыков. Вы можете вносить изменения в условное описание обязанностей. Хорошо, если эти различия четко обозначены.

Если вы заинтересованы в найме сбалансированной команды специалистов по данным и инженеров, члены которой уже имеют установленные роли, методы общения и многолетний коллективный опыт, свяжитесь с нами. Свяжитесь с экспертами по данным и подробно изучите свой проект.

Первоначально опубликовано на https://jelvix.com.

Дополнительные материалы на plainenglish.io