Публикации по теме 'data-engineering'


Мои курсы Datascience, книги, видео, список литературы
Моя текущая роль Я дата-инженер. По состоянию на 2023 год у меня 18 лет опыта работы в области обработки данных и бизнес-аналитики. Я изучал курс нейронных сетей во время учебы в Btech (EEE) в 2003 году и наткнулся на Basket Analysis (метод интеллектуального анализа данных, анализ шаблонов) во время моего первого проекта Data Warehousing (DW) в 2004 году. За последние 10 лет эти комбинации стали модными словами и искали после навыков под разными названиями, такими как наука о данных,..

Data Scientist vs Data Engineer : что вам нужно знать?
Давайте рассмотрим разницу между знаниями, способностями и инструментами, которые вам нужны, чтобы стать великим специалистом по данным или инженером данных. Мы не будем подробно рассматривать другие роли в команде, но их много, вот некоторые из них: архитекторы данных, инженеры данных, специалисты по данным, инженеры машинного обучения, инженеры MLOps, скрам-мастера, владельцы/менеджеры проектов, бизнес-аналитики. , Аналитики данных. Все эти роли способствуют созданию информационного..

Quix Streams — Потоковая обработка с помощью Kafka и Python.
Более 100 000 организаций используют Apache Kafka для потоковой передачи данных. Однако есть проблема: в широкой экосистеме отсутствует зрелая клиентская среда и управляемый облачный сервис для инженеров данных Python. Quix Streams — новая технология на рынке, пытающаяся закрыть этот пробел. В этом сообщении блога обсуждается эта библиотека Python, ее место в экосистеме Kafka и когда ее использовать вместо Apache Flink или других заменителей на основе Python или SQL. (Первоначально..

[Обзор статьи] Операции машинного обучения: обзор, определение и архитектура
Абстрактный Конечная цель всех проектов промышленного машинного обучения — разработать продукты машинного обучения, а затем запустить их в производство. Но очень сложно автоматизировать и внедрить продукты машинного обучения. Этот документ представляет собой руководство для исследователей и практиков машинного обучения, которые хотят автоматизировать и использовать продукты машинного обучения с помощью разработанного набора технологий. Введение Большое количество продуктов ML..

dbt Beyond the Basics: расширенные стратегии реализации
Расширенные темы dbt полезны для специалистов по данным, которые хотят расширить свои возможности моделирования и аналитики данных. Изучая сложные темы, пользователи могут использовать мощные функции dbt для создания масштабируемых конвейеров данных, автоматизации преобразования данных, реализации моделей машинного обучения, а также расширенного управления данными и обеспечения безопасности. Эти темы особенно актуальны для крупных организаций со сложными средами данных, поскольку они..

Эффективный Python, часть 1: начните с основ
Эй, ребята из данных, особенно любители python! Кому никогда не приходилось заниматься рефакторингом своего кода или повышением производительности? Это почти ежедневная тема для разработчиков и инженеров по обработке данных. После нескольких лет написания, переписывания, исследования, изучения и получения множества отзывов от более опытных коллег; вместе с курсом Python о том, как писать на Python более эффективно…

Разгадка парадокса дней рождения: изучение вероятности общих дней рождения
Как вы думаете, какова вероятность того, что у двух человек в комнате день рождения в один день? Привет! Я Гейб, энтузиаст анализа данных с более чем десятилетним опытом работы в этой области. Моя страсть заключается в обучении других чудесам Python, машинного обучения и создании интерактивных информационных панелей с использованием таких инструментов, как Power BI и Tableau. Сегодня я хочу отправить вас в статистическое приключение, чтобы исследовать интригующий вопрос: какова..