Целевая аудитория

Программа предназначена для управленцев среднего звена и выше. Будет полезна для тех, кто планирует внедрение технологии в организации.

Программа
  • Введение в большие данные (Big Data)

    2 ч.

    • Цели и задачи курса.

    • Основные понятия и определения.

    • История науки о данных (Data Science). Особенности развития Data Science в настоящее время.

    • Большие данные и цифровая трансформация.

    • Эффективное использование данных в организации.

    • Различные подходы к управлению (Data-Driven и DataInformed).

    • Data-Driven культура (данные как стратегический ресурс).

    • Использование Data-Driven подхода. Выгоды от работы с большими данными.

    • Основные области применения больших данных.

  • Специфика работы с большими данными

    2 ч.

    • Основные принципы работы с Big Data

    • Интеграция больших данных. Источники данных (реляционные, не реляционные, предметно ориентированные информационные базы данных). Data Lake.

    • Импорт и экспорт данных: SQL и NoSQL базы данных, потоковые данные, файловые системы (HDFS, NFS), webcontent, социальные сети.

    • Пакетная и динамическая (batch / real-time) загрузка данных.

    • Типовые задачи аналитики больших данных.

    • Методы аналитики Big Data. Подход MapReduce.

    • Жизненный цикл аналитики данных: получение и накопление данных, подготовка данных, планирование модели, построение модели, проверка результатов, внедрение.

    • Использование анализа больших данных для повышения эффективности бизнес процессов.

  • Технологии больших данных.

    24 ч.

    • Особенности применения аналитики для Big Data

      • Статистические методы и методы интеллектуального анализа данных (Data Mining).
      • Отличия методов Data Mining от статистических методов.
      • Задачи и этапы Data Mining.
      • Организационные и человеческие факторы в Data Mining. Методология CRISP-DM (Cross-Industry Standard Process for Data Mining).
      • Классификация и кластеризация.
      • Прогнозирование. Предсказательная аналитика (predictive analytics).
      • Поиск зависимостей в данных. Ассоциативные правила (Association Rules) и обнаружение аномалий. Меры качества закономерностей.
      • Визуализация.
      • Вычисление дескриптивных статистик (частоты, средние, стандартные отклонения, медианы etc.) для больших объемов данных.
      • А/В- (A/B/n-) тестирование и реализация задач оптимизации (повышения эффективности) работы.
      • Выбор языка программирования для работы с данными
    • Применение Искусственного Интеллекта для аналитики Big Data (Машинное обучение).

      • Основные понятия машинного обучения (Machine Learning).
      • Постановка задач обучения по прецедентам. Виды машинного обучения. Объекты и признаки. Деревья решений.
      • Процесс создания модели в машинном обучении.
      • Классификация алгоритмов Machine Learning.
      • Обучение с учителем.
      • Обучение без учителя.
      • Обучение с подкреплением.
      • Оценка качества алгоритмов машинного обучения.
      • Сложные модели. Ансамбли деревьев решений, бустинг.
      • Искусственные нейронные сети. Модель нейрона. Структура нейронной сети.
      • Классификация нейронных сетей. Сложные архитектурные модели.
      • Байесовские нейронные сети.
      • Обучение нейронной сети. Метод обратного распространения ошибки. Глубокое обучение.
      • Экспериментальное исследование и сравнение алгоритмов на модельных и реальных данных.
  • Инструментарий для работы с Big Data

    2 ч.

    • Инструменты для анализа данных и машинного обучения (Библиотеки, Фреймворки, Базы данных, Аналитические платформы).

    • Распределенные вычисления и экосистема Apache Hadoop. Назначение и характеристика компонент Hadoop для хранения и обработки Big Data. Аналитика для неструктурированных данных с использованием Hadoop.

    • Обработка данных в реальном времени. Машинное обучение с библиотекой MLLib Apache Spark.

    • Применение облачных технологий (платформы AWS, Azure) для реализации решений Big Data.

    • Массово-параллельная структура (Massive Parallel Processing).

    • Языковые средства моделирования. Использование R и Python в машинном обучении.

    • Использование прикладных библиотек в машинном обучении (на примере работы с библиотекой TensorFlow).

    • Реализация решений Data Mining и Machine Learning для Big Data на современных NewSQL платформах (на примере SAP HANA).

  • Тенденции развития техник и технологий работы с большими данными.

    4 ч.

    • Сравнительные характеристики программных и аппаратных решений для реализации решений Big Data.

    • Big Data Infrastructure Landscape 2019.

    • Big Data Infrastructure Service Providers 2019.

    • Big Data Analytics Landscape 2019.

    • Big Data Enterprise Level Applications Landscape 2019.

  • Особенности внедрения технологий больших данных

    8 ч.

    • Определение перспектив использования больших данных и способов их монетизации.

    • Выбор инфраструктуры под проект (пригодной для реализации на старте и в будущем).

    • Выбор необходимых алгоритмов машинного обучения.

    • Управление проектом по внедрению технологий больших данных. Формирование команды проекта Big Data. Ключевые роли.

    • Оценка результатов внедрения решений Big Data.

    • Итоговая аттестация