DataTalks 1.0 — курс лекций о работе с данными

В 2019 году Ростелеком совместно с партнерами проводил DataTalks 1.0. Вы можете посмотреть видео записи курса. За 12 лекций вы узнаете как эффективно управлять данными, поймёте как строятся хранилища данных, узнаете о подходах к работе с большими данными и научитесь правильно их визуализировать.

Подходы к управлению данными: стратегические, организационные, технологические

Спикеры: Носов Сергей, Гиацинтов Олег, Малькова Лариса

Узнаем о роли данных в компании и поймем как их систематизировать

    • О роли данных в цифровой экономике
    • Почему важно быть data-driven организацией
    • Кто является лидером по монетизации данных
    • Из каких блоков строятся data-driven компании

  • Какие новые роли и новые подходы к работе необходимо развивать для эффективного управления корпоративными данными
  • Какие принципы и методики используются при построении функции управления корпоративными данными
  • На что стоит обратить внимание при разработке архитектуры системы управления данными
  • Что такое экосистема и почему в современном мире не обойтись без партнеров
  • Data Governance — что это такое?
  • Управление данными – это стратегическая бизнес-функция. Видение подходов на различных уровнях.
  • Методологический взгляд – DM-BOK и другие методологии
  • Стратегический уровень управления данными – данные как актив, их влияние на рост бизнеса
  • Операционный уровень управления данными – новая оргструктура, новые бизнес-процессы, новые подходы к работе бизнес-подраздлений
  • Технологический уровень управления данными – инструменты аудита метаданных, построения бизнес-глосcария и других видов описания метаданных, модели метаданных, big data и другие
  • Реальные примеры применения и возможные результаты

Материалы лекций

Подходы к управлению данными: стратегические, организационные
Малькова Лариса
Accenture

Технологический подход к управлению данными
Гиацинтов Олег
DIS Group

Подходы к управлению данными в Ростелекоме: стратегические, организационные, технологические
Носов Сергей
Ростелеком

Видеозапись лекций

Эволюция аналитических хранилищ данных

Спикер: Семененко Сергей

Узнаем, для чего нужны хранилища данных и как их строить

  • Назначение и предпосылки создания аналитического хранилища данных в компании
  • Хронология развития хранилищ данных
  • Базовые характеристики корпоративного хранилища данных
  • Способы реализации интеграционных потоков наполнения Datawarehouse
  • Области данных Datawarehouse и модели построения витрин данных (Data Marts)
  • Способы ведения истории в реляционных Datawarehouse
  • Технологические тенденции обработки больших массивов данных
  • Проблематика построения корпоративного хранилищ данных

Материалы лекций

Эволюция аналитических хранилищ данных
Семененко Сергей
Ростелеком

Вопросы для проверки знаний

Видеозапись лекции

Список рекомендуемой литературы

• Kimball Ralph “The Data Warehouse Toolkit (2 edition)” Wiley 2002
• Bill Inmon “Building the Datawarehouse (4 edition)” Wiley 2005
• Bill Inmon “Corporate Information Factory, CIF” ISBN 9780471399612
• Bill Inmon, Derek Strauss, Genia Neushloss “2.0: The Architecture for the Next Generation of Data Warehousing” ISBN 9780080558332DW
• Nathan Marz, James Warren «Big Data:Principles and best practices of scalable realtime data systems» ISBN 9781617290343

Направления и тенденции развития баз данных. MPP системы. Основы Greenplum.

Спикер: Павлов Дмитрий

Разберём, как современные компании справляются с ситуацией, когда данных слишком много

  • Как обрабатывать терабайты данных в реальном времени
  • Как спроектировать систему для обработки данных, не зная заранее объёма этих данных
  • Как устроена современная инфраструктура хранилища данных
  • Рассмотрим эти вопросы на примере Greenplum – открытой, гибкой и мощной системы для параллельной обработки данных

Материалы лекций

Направления и тенденции развития баз данных. MPP системы. Основы Greenplum.
Павлов Дмитрий
ARENADATA

Видеозапись лекции

Основы Hadoop. Современные подходы к обработке Big Data.

Спикер: Бородаенко Виктор

Научимся использовать основные инструменты работы с большими данными

  • Как выбирать и эффективно использовать современные инструменты Big Data
  • Какие существуют подходы к решению задач обработки больших данных
  • Как создавать и развивать комплексные системы хранения и обработки больших данных enterprise-уровня
  • Что нужно знать и учитывать при построении систем Big Data в своей компании

Материалы лекций

Основы Hadoop. Современные подходы к обработке Big Data.
Бородаенко Виктор
ARENADATA

Видеозапись лекции

Технологии интеграции данных. Подходы к построению хранилищ данных. Управление метаданными в интеграционных средах.

Спикер: Гиацинтов Олег

Разберем на примерах, как загружать данные в хранилища

  • Интеграция данных: цели и задачи
  • Виды технологий интеграции и их назначение
  • Применение интеграционных инструментов для различных задач: хранилища данных, миграции, синхронизации, построение межсистемных интерфейсов
  • Хранилища данных – что это и зачем нужно?
  • Основные особенности проектов построения хранилищ данных
  • Реальные примеры построения хранилищ
  • Управление метаданными – основные задачи применения
  • Технологии для управления метаданными
  • Реальные примеры в части управления метаданными

Материалы лекций

Технологии интеграции данных. Подходы к построению хранилищ данных. Управление метаданными в интеграционных средах.
Гиацинтов Олег
DIS Group

Видеозапись лекции

Вопросы для проверки знаний

Список рекомендуемой литературы

• Data Integration For Dummies
https://www.informatica.com/lp/data-integration-for-dummies_2642.html#fbid=0hz_o4BZO6b

• Big Data Management For Dummies
https://www.informatica.com/lp/big-data-management-for-dummies_3070.html#fbid=0hz_o4BZO6b

Декомпозиция задач как центральный элемент аналитики. Жизненный цикл проекта по созданию аналитического решения, операционная модель работы с данными.

Спикеры: Попов Иван, Фомин Алексей

Иван Попов и Алексей Фомин, старший менеджер и менеджер Accenture, расскажут, о чём необходимо помнить, работая с данными в большой организации и реализуя проекты по построению крупных аналитических решений, требующих участия большого количества людей и организации взаимодействия между ними:

  1. Обсудим, что такое декомпозиция и как декомпозировать задачи при работе с данными
  2. Проведём краткий обзор методологий Waterfall и Agile, сделаем выводы об их применимости для создания крупных аналитических решений
  3. Детально опишем жизненный цикл проекта в контексте больших аналитических систем, в том числе:
    1. Рассмотрим «Lessons Learned» из практики Accenture — на какие этапы проекта по созданию крупных аналитических решений стоит обращать особое внимание
    2. Узнаем о преемственности, архитектурном надзоре, взаимодействии с третьими сторонами и работе с большими разрозненными командами
  4. Дадим определение операционной модели (функций и ролей внутри неё) в рамках работы с данными, покажем примеры опер.моделей для направления DWH/BI
  5. На примере наработок Accenture расскажем о подходах и методах, позволяющих упростить и ускорить процесс разработки и внедрения аналитических систем – DevOps и Continuous Integration

Материалы лекций

Декомпозиция задач как центральный элемент аналитики. Жизненный цикл проекта по созданию аналитического решения, операционная модель работы с данными.
Попов Иван, Фомин Алексей
Accenture

Результаты Quiz

Видеозапись лекции

Работа с мастер-данными. Очистка клиентских данных.

Спикеры: Назаров Никита, Абдюшев Павел

Узнаем о том, что такое мастер-данные и как с ними работать

  1. Зачем нужны мастер-данные.
  2. Какие бывают мастер-данные.
  3. Клиентский MDM (или CDI):
    1. Почему CDI выделили в отдельное направление.
    2. Ключевые характеристики.
    3. Место в ландшафте компании.
    4. Почему CDI невозможнен без DataQuality
    5. Что требуется от DataQuality.

Материалы лекций

Работа с мастер-данными. Очистка клиентских данных.
Назаров Никита, Абдюшев Павел
HFLabs

Видеозапись лекции

Управление нормативно-справочной информацией (НСИ). Процессы и решения для повышения качества НСИ.

Спикер: Ильин Алексей

Узнаем что такое нормативно-справочная информация и как ей управлять на примере инструмента Ataccama Reference Data Manager (RDM)

  1. Познакомимся с подходом к автоматизации процессов управления НСИ
  2. Автоматизируем процессы НСИ на примере справочника точек продаж в учебном проекте на платформе Ataccama RDM
  3. Настроим решения НСИ на примере учебного проекта на платформе Ataccama RDM:
    1. настройка модели данных справочника,
    2. настройка рабочего процесса,
    3. настройка правил валидации данных,
    4. настройка иерархий,
    5. загрузка данных и интеграция с информационными системами

Материалы лекций

Управление нормативно-справочной информацией (НСИ). Процессы и решения для повышения качества НСИ.
Ильин Алексей
ADASTRA

Видеозапись лекции

Работа с качеством данных. Профилирование, очистка и DQ мониторинг.

Спикер: Гиацинтов Олег

Узнаем, что такое качество данных, зачем компаниям нужны качественные данные, как выявлять ошибки и их исправлять

  • Что такое качество данных? Разные варианты понимания термина
  • Основные проблемы качества данных
  • Варианты решения задач управления качеством данных
  • Основные виды технологий для управления качеством данных
  • Профилирование данных – что и зачем это? Примеры применения
  • Очистка данных – подходы к реализации и понимание ее необходимости
  • Методы и особенности выявления дубликатов записей для понимания «единой версии правды»
  • Мониторинг. Оценки качества данных и их дальнейшее применение.
  • Реальные примеры задач и решений в части управления качеством данных.

Материалы лекций

Работа с качеством данных. Профилирование, очистка и DQ мониторинг.
Гиацинтов Олег
DIS Group

Вопросы для проверки знаний

Видеозапись лекции

Управление vs администрирование процессов. Когда начинается аналитика и зачем она нужна. Критерии успеха проекта создания управленческой аналитики. Место аналитики в ИТ-архитектуре предприятия.

Спикер: Полехин Сергей

Узнаем, что такое управленческая аналитика и для чего она нужна

  • Управление vs администрирование процессов в организации
  • Когда появляется аналитика и зачем она нужна
  • Критерии успеха проекта создания управленческой аналитики
  • Место аналитики в ИТ-архитектуре предприятия

Материалы лекций

Управление vs администрирование процессов. Когда начинается аналитика и зачем она нужна. Критерии успеха проекта создания управленческой аналитики. Место аналитики в ИТ-архитектуре предприятия.
Полехин Сергей
Qlik

Видеозапись лекции

Современные платформы BI. Критерии выбора. Решение аналитических задач в BI-инструментах.

Спикер: Полехин Сергей

Научимся решать аналитические задачи на современных платформах

  • Архитектура и состав решения управленческой аналитики
  • Современные платформы BI: критерии выбора
  • Решение аналитических задач в BI-инструментах

Материалы лекций

Современные платформы BI. Критерии выбора. Решение аналитических задач в BI-инструментах.
Полехин Сергей
Qlik

Видеозапись лекции

Agile в управлении данными

Спикер: Егоркин Олег

Разберемся, что такое гибкий подход к разработке и развитию продукта, как он работает. И как правильно применять Agile фреймворки.

  1. Что такое Agile?
    • a. Agile манифест и принципы
    • b. Agile фреймворки. Чем отличается фреймворк от методологии
  1. Теория запутанности
    • a. Как определить, какой инструмент будет наиболее эффективен. Кеневин фреймворк.
  1. Современные подходы к созданию продукта
    • a. Формирование цепочки создания ценности. Lean Startup
    • b. Фокус на потребителе, дизайн мышление. Визуализация сustomer journey map, и определение MVP
    • c. Формирование бэклога, уровни планирования в Agile
  1. Эмпирический подход к управлению процессами
    • a. Использование механизмов обратной связи для улучшения процессов (клиентское демо, sprint review, ретроспектива)

Материалы лекций

Agile в управлении данными
Егоркин Олег
Ростелеком

Видеозапись лекции