У вас уже есть заявка на текущий период.
Если вы хотите, чтобы данная программа участвовала в розыгрыше гранта в этом месяце, необходимо добавить ее в папку "Интересные мероприятия".
Или создайте заявку на другой период.
24.08.2020 - 28.08.2020 26.10.2020 - 30.10.2020 Уточните расписание у организатора. Возможно он не успел обновить расписание.
Форма обучения:
Очная/дневная
Вид мероприятия:
Курсы
Тип мероприятия:
Открытые
Целевая аудитория
Для инженеров данных, архитекторов Data Lake и Data Warehouse, а также разработчиков Big Data решений.
Преподаватель
Николай Комиссаренко
Анонс программы
Авторские курсы по интеграции NoSQL и Hadoop помогут получить следующие знания и навыки: понять, как организовать комплексную Big Data инфраструктуру на базе озера данных Apache Hadoop, интегрированного с корпоративными хранилищами данных (КХД), OLAP и OLTP системами; разобраться с архитектурой КХД и Data Lake, принципами их наполнения, средствами организации ELT/ETL-процессов; освоить инструменты создания конвейеров данных (data pipelines), включая потоковый (streaming) и пакетный (batch) режимы с применением Apache Sqoop и Spark; научиться формировать запросы к большим данным с помощью средств SQL-on-Hadoop (Apache Hive, Cloudera Impala, Apache Phoenix); приобрести опыт работы с MPP-СУБД Greenplum и ArenadataDB для эффективного охранения и быстрой аналитики больших данных, а также с OLAP-системами Yandex ClickHouse и Arenadata Quick Marts; узнать лучшие практики использования всех этих инструментов для решения прикладных бизнес-задач.
Описание программы
Введение в NoSQL
Базовые принципы и компоненты Hadoop
Основные концепции и виды NoSQL решений
Архитектура Data Lake
Принципы формирование pipelines и Data Lake
Организация импорта данных
Apache Sqoop – основные принципы:
простой импорт и экспорт данных из реляционных источников
сценарии применения
Apache Spark – обзор возможностей:
импорт и экспорт данных из реляционных источников и файлов
нагруженный импорт данных с преобразованием для вложенных, JSON, XML форматов
Особенности использования форматов хранения файлов AVRO, ORC, Parquet.
Организация Hadoop SQL интерфейса доступа к данным на файловой системе HDFS
Apache Hive – интерфейс доступа для batch-процессинга данных на HDFS
Основные ...
Подробнее о программе
Введение в NoSQL
Базовые принципы и компоненты Hadoop
Основные концепции и виды NoSQL решений
Архитектура Data Lake
Принципы формирование pipelines и Data Lake
Организация импорта данных
Apache Sqoop – основные принципы:
простой импорт и экспорт данных из реляционных источников
сценарии применения
Apache Spark – обзор возможностей:
импорт и экспорт данных из реляционных источников и файлов
нагруженный импорт данных с преобразованием для вложенных, JSON, XML форматов
Особенности использования форматов хранения файлов AVRO, ORC, Parquet.
Организация Hadoop SQL интерфейса доступа к данным на файловой системе HDFS
Apache Hive – интерфейс доступа для batch-процессинга данных на HDFS
Основные компоненты системы
Batch процессинг с использованием движков MapReduce/Tez, LLAP, Spark — особенности
Тюнинг JOIN операций
Сценарии использования
Cloudera Impala – OLAP аналитика данных в MPP Hadoop
Особенности решения
Интеграция с Hive и HBase
Форматы файлов для Cloudera Impala (Parquet, ORC)
Особенности JOIN-операций
Сценарии использования
Spark SQL
Возможности фреймворка и предоставляемые API
Сложные преобразования и агрегация с использованием Spark SQL
Интеграция с Hive
Сценарии использования
NoSQL в Hadoop
Спектр возможностей NoSQL в экосистеме Hadoop
Apache HBase – для real-time доступа на чтение и запись
Архитектура решения, концепция CRUD,
Проектирование базы данных, выбор column family
Сценарии использования HBase
Использование Apache Phoenix для HBase
Организация хранилища MPP NoSQL на примере Greenplum/ArenadataDB
Концепция MPP и её реализация в Greenplum/ArenadataDB.
Загрузка и распределение данных. Сегментирование таблиц. Индексация