Давайте рассмотрим разницу между знаниями, способностями и инструментами, которые вам нужны, чтобы стать великим специалистом по данным или инженером данных.

Мы не будем подробно рассматривать другие роли в команде, но их много, вот некоторые из них: архитекторы данных, инженеры данных, специалисты по данным, инженеры машинного обучения, инженеры MLOps, скрам-мастера, владельцы/менеджеры проектов, бизнес-аналитики. , Аналитики данных. Все эти роли способствуют созданию информационного продукта.

Инженерия данных

Нам нужно знать, что работа Data Engineer (DE) заключается в сборе и подготовке всех данных для команды, для аналитического или оперативного использования. Они создают конвейеры для сбора данных из разных исходных систем.

Они очищают данные и в целом эта роль похожа на Архитектора Данных, но последний делает это для всей компании, а не только для проекта.

Существует три роли DE: универсалы, инженеры, ориентированные на конвейер, и инженеры, ориентированные на базы данных:

— Если вы специалист по данным, вы вполне подойдете на первую роль. Универсальный инженер занимается e2e-обработкой и обычно работает в небольших командах. Это типичные.

- Инженеры, ориентированные на конвейер, сосредоточены на рабочих процессах данных, обычно крупные компании, скорее всего, нуждаются в этой роли.

- Инженеры, ориентированные на базы данных, сосредоточены на обслуживании аналитических баз данных и создании процесса ETL.

Инструменты: как Data Engineer вы должны знать и использовать такие языки программирования, как C++, Java, Python, R, Scala и SQL. Им также необходимо хорошее понимание процессов ETL, хранилищ данных, озер данных и т. д.

Теперь важно знать PySpark и иметь хорошее представление об уровне хранения, как в Snowflake, AWS S3, Azure Blob Storage и Google Cloud Storage. Кроме того, веб-платформы, такие как Databricks, которые обеспечивают автоматизированное управление кластером и блокноты в стиле IPython. Чтобы автоматизировать процесс, они могут использовать Airflow.

ДанныеУченый

Во-первых, DS похож на Data Analyst, потому что они находят, какие данные нужны моделям, Data Scientist исследует, анализирует и идентифицирует все источники, чтобы найти связь между столбцами, косвенно установить функции.

Работает с командой DE, собирая, интегрируя и подготавливая данные для анализа.

Создание, обучение и выполнение аналитических моделей. Они также сообщат результаты руководителям и конечным пользователям.

Разрабатывайте алгоритмы искусственного интеллекта, и, как правило, Data Scientist использует данные для построения модели машинного обучения для прогнозирования чего-либо.

Инструменты. Хороший специалист по данным должен хорошо разбираться в Apache Spark, Excel, Tableau или PowerBI, Jupyter Notebooks, MapReduce, Hadoop.

И некоторые библиотеки, такие как Matplotlib, Scikit-learn, TensorFlow, Pandas, NumPy.

Инженер по машинному обучению

Мы должны особо упомянуть инженеров машинного обучения. Инженеры по машинному обучению берут модели, созданные специалистами по данным, и помогают им масштабировать их. Они также обеспечивают ремонтопригодность конвейеров и процессов.

Вот некоторые из навыков и инструментов, которые нужны инженерам машинного обучения:

  • AWS или Google Cloud;
  • Инфраструктурные инструменты, такие как Kubernetes и Terraform;
  • Python и другие языки программирования;
  • Flask, Docker и другие инструменты для создания веб-сервисов.

Специалисты по обработке и анализу данных и разработчики машинного обучения совместно работают над созданием сервисов предложений по категориям. Когда он развертывается для всех пользователей, они обеспечивают его стабильность. Кроме того, они должны убедиться, что сервис может поддерживаться и изменяться в будущем.

Как всегда, для начала не нужно знать все, главное умение — это стойкость. Потому что для большинства должностей или работ потребуются разные инструменты, но одни и те же концепции.

Выводы

Иногда вы не увидите различий, потому что вам как команде придется выполнять больше задач, чем предопределено в вашей роли. И вы должны решить, будете ли вы это делать или откажетесь.

Специалисты по данным и инженеры сотрудничают. Данные, которые предприятия хранят в базах данных и других форматах, подготавливаются и систематизируются инженерами данных. Кроме того, они создают конвейеры данных, которые предоставляют специалистам по данным доступ к данным. Все эти данные используются специалистами по обработке и анализу данных для аналитики и других инициатив, направленных на улучшение бизнес-процессов и результатов.
Цели и наборы навыков специалистов по данным и ученых различаются. Инженеры данных часто обладают широким спектром знаний и навыков и, как правило, не имеют узкой области знаний. Напротив, специалисты по данным часто имеют узкие области интересов. Их внимание сосредоточено на более глубоком исследовательском анализе данных.

Инженеры данных настраивают необходимую инфраструктуру, в то время как специалисты по данным работают над совершенно новыми комплексными задачами.