Целевая аудитория

Практикующие разработчики, администраторы СУБД, аналитики данных, инженеры данных

Программа
  • Модуль 1. Организация работы с данными

    • Архитектуры хранилища и витрин данных, озера данных

    • Структуры данных и их применение 3NF, ROLAP, flat, Data Vault Anchor и их применение Примеры структур данных источников для тестовой витрины и тестового аналитического набора данных

    • Разновидности систем управления базами данных: РСУБД

    • Разновидности систем управления базами данных: NOSQL MongoDB, Redis Особенности обработки запросов в СУБД NOSQL 

    • Разновидности систем управления базами данных: MPP Обзор MPP хранилищ

    • Модуль 2. Экосистема больших данных

      • Распределённая файловая система HDFS

      • SQL поверх больших данных Hive и Impala Пример создания и реструктуризации витрины данных в HDFS/Impala

      • Оперативный механизм распределённой обработки данных Spark Модель вычислений и RDD Data Frames и Spark SQL Обзор Apache PyArrow Пример создания и реструктуризации аналитического набора данных в Spark Отладка, профилирование и мониторинг Spark Job

      • Модуль 3. Автоматизация извлечения, преобразования и загрузки данных

        • Механизмы ETL и ELT

        • Airflow как инструмент: Набор библиотек Executor, worker и операторы-сенсоры Репозиторий Airflow, мониторинг процессов Планировщик задач Airflow 

        • Графовое описание процессов DAG и операторы задач

        • ETL для тестовой витрины данных и тестового аналитического набора данных

        • Сложные конвейеры обработки (pipeline)

        • Разработка собственных операторов задач.

        • Модуль 4. Проверка и повышение качества данных

          • Характеристики и метрики качества данных Профилирование, контроль качества и очистка данных

          • Инструменты обеспечения качества данных Пример реализации контроля для тестового набора данных