Описание
Необходимые знания и навыки:
  • Знание SQL
  • Знание основ синтаксиса Python
  • Понимание процесса разработки ПО
Целевая аудитория

  • Data Engineer, которые хотят научиться проектировать DWH
  • Аналитики данных
  • Системные аналитики
  • DBA (Database Administrator)

Программа
  • Реляционные базы данных

    • Структуры данных и их применение 

    • Структуры: 3NF, OLAP Cube, ROLAP, flat, Data Vault и их применение 

    • Примеры структур данных источников для тестовой витрины и тестового аналитического набора данных

    • ER-диаграммы

    • Нормальные формы

    • Dimensional Modeling 

    • Data Vault 

    • Anchor Modeling 

    • Якорная модель 

    • Data Build Tool (dbt): инициализация, подключение, моделирование

    • Разновидности систем управления базами данных: MPP: обзор MPP хранилищ, Greenplum, Clickhouse, Teradata, Vertica

    • Архитектура DWH

      • Понятие хранилища данных 

      • Почему появились DWH и какие задачи решают; 

      • Отличия OLAP от OLTP 

      • Подходы к проектированию: "по Инмону", "по Кимбалу"

      • dbt как инструмент для генерации Data Vault 

      • DBT: Analytics Engineering: Analytics Engineering; Building complex Data Marts; 

      • SQL best practices: Complex SQL transformations + CTE;

      • DBT: Analytical functions; 

      • DBT: Macros + Jinja templates; 

      • DBT: Code compilation + debugging; Documenting your project; Accessing documentation easily with static website.

      • Аналитические запросы

        • Представления данных: Информационные продукты. Виды аналитики. 

        • Особенности. Оптимизации 

        • Введение в анализ данных и основы статистики: Основы статистики. Генеральная совокупность и выборка. Нормальное распределение. Стандартное отклонение. Доверительные интервалы. Статистические гипотезы и уровень значимости. Коэффициент корреляции.

        • Предобработка данных, исследовательский и статистический методы анализа данных: Изучение срезов данных. Работа с пропусками и дубликатами. Нормировка данных. Анализ временных рядов. Постановка и проверка гипотез. Валидация результатов. Взаимосвязь данных. 

        • Потребность в SQL для работы с Hadoop.

        • Архитектура Hive и модели данных. HiveQL 

        • Вопросы оптимизации производительности: Performance best practices; Execution plan analysis; Compressing data & physical design (DIST, SORT, Materialized views, …); Incremental updates / building marts by periods; Code refactoring & KISS (Keep it simple, stupid).

        • Analytics: Базовые аналитические витрины: сегментация – Segments; ключевые показатели и метрики – KPI; анализ временных рядов – Timeseries analytics + Period-by-period; когортный анализ – Cohort analysis. 

        • Analytics: Сквозная аналитика: требования бизнеса и ожидаемые результаты; эволюция подходов, используемых инструментов, практик; рейтинг проблем и узких мест;

        • BI решения

          • Основы Business Intelligence: redash; superset; datalens.

          • Развертывание BI-решения

          • Управление метаданными: что такое метаданные; источники метаданных; Data Catalog и Data Discovery; Atlas. 

          • BI: Modeling & Delivering: Connecting to data sources; задание метрик, фильтров, сегментов; подготовка визуализаций для представления выводов; сборка аналитических дашбордов: лучшие практики.

          • DevOps практики. CI + CD

            • Основные метрики качества данных; 

            • Причины нарушения качества и стратегии реагирования; 

            • Измерение, мониторинг, исправление; 

            • Демонстрация: тесты актуальности, кросс-проверки источник <-> DWH

            • Тестирование DWH. Применение dbt и dbt cloud. Github CI.