Описание
Необходимые знания и навыки:
  • Знание SQL
  • Знание основ синтаксиса Python
  • Понимание процесса разработки ПО
Целевая аудитория

  • Data Engineer, которые хотят научиться проектировать DWH
  • Аналитики данных
  • Системные аналитики
  • DBA (Database Administrator)

Программа
  • Реляционные базы данных

    • Структуры данных и их применение

    • Структуры: 3NF, OLAP Cube, ROLAP, flat, Data Vault и их применение

    • Примеры структур данных источников для тестовой витрины и тестового аналитического набора данных

    • ER-диаграммы

    • Нормальные формы

    • Dimensional Modeling

    • Data Vault

    • Anchor Modeling

    • Якорная модель

    • Data Build Tool (dbt): инициализация, подключение, моделирование

    • Разновидности систем управления базами данных: MPP: обзор MPP хранилищ, Greenplum, Clickhouse, Teradata, Vertica

  • Архитектура DWH

    • Понятие хранилища данных

    • Почему появились DWH и какие задачи решают;

    • Отличия OLAP от OLTP

    • Подходы к проектированию: "по Инмону", "по Кимбалу"

    • dbt как инструмент для генерации Data Vault

    • DBT: Analytics Engineering: Analytics Engineering; Building complex Data Marts;

    • SQL best practices: Complex SQL transformations + CTE;

    • DBT: Analytical functions;

    • DBT: Macros + Jinja templates;

    • DBT: Code compilation + debugging; Documenting your project; Accessing documentation easily with static website.

  • Аналитические запросы

    • Представления данных: Информационные продукты. Виды аналитики.

    • Особенности. Оптимизации

    • Введение в анализ данных и основы статистики: Основы статистики. Генеральная совокупность и выборка. Нормальное распределение. Стандартное отклонение. Доверительные интервалы. Статистические гипотезы и уровень значимости. Коэффициент корреляции.

    • Предобработка данных, исследовательский и статистический методы анализа данных: Изучение срезов данных. Работа с пропусками и дубликатами. Нормировка данных. Анализ временных рядов. Постановка и проверка гипотез. Валидация результатов. Взаимосвязь данных.

    • Потребность в SQL для работы с Hadoop.

    • Архитектура Hive и модели данных. HiveQL

    • Вопросы оптимизации производительности: Performance best practices; Execution plan analysis; Compressing data & physical design (DIST, SORT, Materialized views, …); Incremental updates / building marts by periods; Code refactoring & KISS (Keep it simple, stupid).

    • Analytics: Базовые аналитические витрины: сегментация – Segments; ключевые показатели и метрики – KPI; анализ временных рядов – Timeseries analytics + Period-by-period; когортный анализ – Cohort analysis.

    • Analytics: Сквозная аналитика: требования бизнеса и ожидаемые результаты; эволюция подходов, используемых инструментов, практик; рейтинг проблем и узких мест;

  • BI решения

    • Основы Business Intelligence: redash; superset; datalens.

    • Развертывание BI-решения

    • Управление метаданными: что такое метаданные; источники метаданных; Data Catalog и Data Discovery; Atlas.

    • BI: Modeling & Delivering: Connecting to data sources; задание метрик, фильтров, сегментов; подготовка визуализаций для представления выводов; сборка аналитических дашбордов: лучшие практики.

  • DevOps практики. CI + CD

    • Основные метрики качества данных;

    • Причины нарушения качества и стратегии реагирования;

    • Измерение, мониторинг, исправление;

    • Демонстрация: тесты актуальности, кросс-проверки источник <-> DWH

    • Тестирование DWH. Применение dbt и dbt cloud. Github CI.