Целевая аудитория

Дата инженеры, разработчики, архитекторы БД, Data Scientists, аналитики данных, ETL девелоперы

Программа
  • Программа курса / модули:

    • Введение в ETL. Структура и типы источников данных

    • Введение в Apache Airflow

    • Настройка, установка Airflow.

    • Основные абстракции и компоненты. DAG

    • Принципы работы DAG.

    • Установка интервала расписания (Schedule Interval).Как выстраивать DAG и стадии во времени и контролировать их исполнение (Execution Date)

    • Мониторинг и дебаггинг процессов DAG.

    • Более совершенные техники и сценарии использования AirFlow: работа с XComs, sub-DUGs, пуллинг, параллелизм и др.

    • Лучшие практики по использованию AirFlow: интеграция с системами (Hadoop, Spark, Impala, ClickHouse, SuperSet и т.д), бекапы конфигурирование и масштабирование.

    • Разработка. Плагины и нотификация. Операторы и хуки

    • Установка и запуск Airflow в контейнерах Docker.

    • Тестирование. Использование тестов в разработке.

    • Итоговая аттестация