До Саммита данных + ИИ осталось всего несколько недель — 24–28 мая (к вашему сведению: виртуальная генеральная конференция бесплатна). Первые два дня отведены как для бесплатных, так и для платных тренировок. Последние три дня посвящены сотням интересных сессий, посвященных широкому кругу тем, таких как Внутреннее устройство Spark и рекомендации, Инженерия данных, Архитектура данных, Наука о данных, Глубокое обучение и машинное обучение, SQL Analytics, Бизнес-аналитика, Сценарий использования Spark в рабочей среде и т. д.

Вот 15 сессий, которые мне очень нравятся.

  1. Производство решений машинного обучения с эффективным отслеживанием, мониторингом и управлением: Сумант Венкатасуббайа и Панкадж Растоги из Intuit представят систему, которая постоянно отслеживает и контролирует модели машинного обучения на различных этапах жизненного цикла разработки в Intuit, чтобы обеспечить работоспособность их ИИ-решений.
  2. Масштабирование онлайн-прогнозов машинного обучения в DoorDash: Хиен Луу и Арбаз Хан из DoorDash поделятся опытом создания и масштабирования платформы машинного обучения в DoorDash и, в частности, службы прогнозирования, которая поддерживает до миллиардов прогнозов в секунду. день с пиковой скоростью запросов выше 1 миллиона в секунду.
  3. Коалы: работают ли коалы хорошо или нет?: Такуя Уешин и Синьронг Мэн из Databricks представят коалы и их текущий статус, а также сравнение между коалами и даском.
  4. Консолидация MLOps в одном из крупнейших аэропортов Европы: Флорис Хугенбум из Royal Schiphol Group расскажет нам, как они используют MLFlow для контролируемого выпуска нескольких версий модели в неделю контролируемым образом в амстердамском аэропорту Схипхол. аэропорт. Их варианты использования машинного обучения включают прогнозирование пассажиропотока и анализ того, что происходит вокруг самолета.
  5. Случаи использования структурированной потоковой передачи в Apple:Кристин Гуо и Лян-Чи Хси из Apple поделятся интересными решениями, которые они придумали для расширения структурированной потоковой передачи, чтобы поддерживать большое количество состояний, чтобы добавить общее решение для поддержки окна сеанса, вычисления агрегатов по динамическим пакетам и выполнения соединений поток-поток.
  6. YOLO с программным обеспечением, управляемым данными: Брук Вениг из Databricks и Тим Хантер из ABN AMRO покажут, как обращаться с данными как с кодом с помощью концепции программного обеспечения, управляемого данными (DDS), чтобы инженеры данных и специалисты по данным в YOLO: вы загружаете свои данные только один раз. Этот метод позволяет специалистам по данным использовать промежуточные результаты при сотрудничестве со своими коллегами без необходимости вычислять все с нуля.
  7. Важность воспроизводимости машинного обучения и приложений с помощью MLflow: Грей Гвиздз и Марси Грейс Моэста из Databricks расскажут о проблемах и важности создания и поддержки воспроизводимых, эффективных и управляемых решений машинного обучения, а также о том, как эти проблемы могут быть решены. решается с помощью моментальных снимков Delta Lake и возможностей управления, предоставляемых MLflow.
  8. Project Zen: упрощение обработки данных в PySpark:Хюкджин Квон и Хэджун Ли из Databricks представят некоторые потрясающие улучшения и полезные функции в PySpark, такие как недавно переработанные пользовательские функции pandas и API-интерфейсы функций с Подсказки типа Python.
  9. Интуитивная и масштабируемая настройка гиперпараметров с помощью Apache Spark + Fugue: Ханг Ван из Lyft покажет, как совместное использование Fungue-Tune и Spark может устранить некоторые проблемы при настройке гиперпараметров в масштабе.
  10. Упрощение преобразования данных из Spark в TensorFlow и PyTorch: Лян Чжан из Databricks покажет, как использовать конвертер наборов данных Apache Spark, инструмент с открытым исходным кодом, который упрощает преобразование данных из Spark в платформы глубокого обучения. , такие как TensorFlow и PyTorch. Это позволит проводить распределенное обучение в кластере Apache Spark.
  11. Глубокое погружение в новые функции Apache Spark 3.1: Венчен Фан и Сяо Ли из Databricks познакомят нас с захватывающими новыми разработками в Apache Spark 3.1, такими как функции SQL для ANSI SQL, новые функции потоковой передачи, улучшения производительности и новые приемы настройки в компиляторе запросов.
  12. Раздача ключей от королевства: использование Terraform для автоматизации блоков данных: Гамильтон Форд и Серж Смертин из Scribd поделятся тем, как Scribd предлагает своим внутренним клиентам гибкость, не выступая в качестве привратника, когда речь идет о каких-либо потребностях в Databricks, и для этого требуется всего лишь запрос на извлечение.
  13. Масштабирование ваших конвейеров данных с помощью Apache Spark в Kubernetes: Раджеш Таллам из Google Cloud поможет нам понять ключевые особенности Apache Spark в Kubernetes, такие как автоматическое масштабирование, и продемонстрирует запуск конвейеров аналитики в Spark. организовано с помощью Apache Airflow в кластере Kubernetes.
  14. Наблюдение за конвейерами данных с помощью OpenLineage: Жюльен Ле Дем из DataKin, один из создателей Apache Parquet, представит проект Marquez с открытым исходным кодом, в котором конвейеры данных используются для сбора данных о происхождении и метаданных. Собранные метаданные чрезвычайно ценны, когда речь идет о понимании взаимосвязей между многими командами, потребляющими и производящими данные в экосистеме данных, которая постоянно меняется.
  15. Однократное использование кода с декларативными конвейерами данных: Энтони Оули и Картер Килгур из FlashFood представят свою реализацию декларативного конвейера данных, позволяющую менее специализированному персоналу легко и быстро создавать и настраивать конвейеры ETL, поскольку шаблонный логика была абстрагирована для создания приложений Apache Spark с широкими возможностями настройки, которыми можно управлять с помощью Airflow.

Надеюсь увидеть тебя там!