Введение

В современном мире, управляемом данными, организации сталкиваются с проблемой управления и анализа больших объемов данных из разных источников. Чтобы преодолеть эту проблему, концепция хранилища данных стала мощным решением.

В этой статье мы рассмотрим, как мы использовали технологии Google Cloud Platform (GCP) для создания надежного хранилища данных. Наша архитектура включает сервисы GCP, такие как Datastream, GCS, BigQuery (Biglake), Cloud Composer, Dataproc, Dataplex и Data Catalog.

Что такое Data Lakehouse?

Data Lakehouse — это унифицированная и масштабируемая платформа данных, которая сочетает в себе лучшее из озер данных и хранилищ данных.

Архитектура

Архитектура верхнего уровня Data Lakehouse:

Компоненты домика у озера

Озеро данных состоит из следующих компонентов:

Прием: сбор и импорт данных из разных источников в хранилище данных для обработки в режиме реального времени или пакетной обработки.

Процессы. Применение преобразования данных, агрегирования и аналитики для получения ценной информации из данных в хранилище данных.

Хранилище. Обеспечение надежного и масштабируемого уровня хранения для хранения больших объемов структурированных, полуструктурированных и неструктурированных данных в необработанном и обработанном виде.

Потребление. Извлечение и анализ данных из базы данных с использованием различных инструментов и технологий, таких как SQL-запросы, бессерверные приложения, инструменты бизнес-аналитики (BI) и приложения машинного обучения (ML).

Управление: создание политик, процедур и средств контроля для обеспечения качества данных, безопасности, конфиденциальности и соответствия требованиям в хранилище данных. Это включает в себя управление метаданными, элементы управления доступом, происхождение данных и возможности аудита.

Организация данных в Data Lakehouse

Чтобы организовать данные в нашем домике у озера, мы следуем архитектуре Medallion, которая представляет собой систематический подход к логической организации данных в Доме у озера. Он следует стандартизированной структуре, состоящей из трех основных слоев: бронзового, серебряного и золотого.

Бронзовый слой:

  • Он действует как посадочная зона для Data Lakehouse.
  • Необработанные данные хранятся на уровне Bronze.
  • В бронзе данные поступают из разных источников без какого-либо преобразования.
  • Данные хранятся в необработанном виде, что позволяет легко отследить их источник.
  • Он обеспечивает комплексное и историческое представление данных.

Серебряный слой:

  • Silver Layer — это проверенная и преобразованная версия необработанных данных.
  • Данные слоя Bronze обрабатываются, очищаются и стандартизируются.
  • Это очищенная версия Raw Data.
  • Проверки качества данных и проверка выполняются для обеспечения точности.

Золотой слой:

  • Золотой уровень представляет собой уточненные и готовые к использованию данные.
  • Уровень Gold содержит агрегированные, обобщенные и предварительно рассчитанные данные для эффективного запроса и анализа.
  • Он оптимизирован для конкретных случаев использования и аналитических целей.
  • Расширенная аналитика, машинное обучение и моделирование данных выполняются с данными на золотом уровне.
  • Данные на золотом уровне часто доставляются конечными пользователями с помощью инструментов бизнес-аналитики, информационных панелей или API-интерфейсов данных.

Внедрение сервисов Google Cloud

Мы внедрили хранилище данных на Google Cloud Platform (GCP) с использованием следующих технологий:

  • Поток данных: CDC для приема данных в реальном времени из СУБД.
  • Облачное хранилище (GCS): для недорогого хранилища это основное хранилище наших данных.
  • BigLake: механизм хранения, объединяющий хранилища данных и озера данных.
  • Cloud Composer: для оркестровки конвейеров данных.
  • Dataproc: управляемые кластеры Spark/Hadoop для обработки данных
  • Поток данных: обработка данных в режиме реального времени из Google Pub/Sub.
  • Dataplex: для управления данными и руководства
  • Каталог данных: для управления метаданными

Преимущества Data Lakehouse:

Внедрение Data Lakehouse имеет ряд преимуществ, в том числе:

Единое хранилище данных. Озеро данных предоставляет единое решение для хранения различных типов данных, что упрощает управление всеми данными и их анализ в одном месте.

Масштабируемость. Его можно легко масштабировать для обработки больших объемов данных по мере роста нашего бизнеса, обеспечивая плавное управление данными без ущерба для производительности.

Гибкость. Озеро данных поддерживает различные типы данных, включая структурированные, полуструктурированные и неструктурированные данные.

Исследование и обнаружение данных. С хранилищем данных мы можем использовать различные инструменты для исследования и анализа данных.

Экономичность. Благодаря использованию облачных ресурсов и оптимизированных методов хранения данных это экономичное решение для хранения и обработки данных.

Обработка в режиме реального времени и пакетная обработка. Он позволяет обрабатывать данные как в режиме реального времени, так и в пакетном режиме, обеспечивая своевременный анализ потоковых данных, а также обработку крупномасштабных задач обработки данных.

Расширенная аналитика и машинное обучение. С хранилищем данных мы можем использовать передовые методы аналитики и применять алгоритмы машинного обучения для извлечения осмысленной информации и прогнозов из данных.

Управление данными и безопасность. Озеро данных обеспечивает надежные функции управления данными и безопасности, позволяя нам контролировать доступ к данным, применять политики конфиденциальности и обеспечивать целостность данных и соответствие нормативным требованиям.

Заключение

Мы успешно создали хранилище данных на облачной платформе Google. Lakehouse предоставляет единую платформу для хранения, управления и анализа данных. Он масштабируемый, безопасный и экономичный. Мы уверены, что хранилище данных поможет нам принимать более взвешенные решения и улучшать наш бизнес.