У вас уже есть заявка на текущий период.
Если вы хотите, чтобы данная программа участвовала в розыгрыше гранта в этом месяце, необходимо добавить ее в папку "Интересные мероприятия".
Или создайте заявку на другой период.
25.04.2022 - 29.04.2022 18.07.2022 - 23.07.2022 24.10.2022 - 28.10.2022 Уточните расписание у организатора. Возможно он не успел обновить расписание.
Форма обучения:
Дистанционная
Вид мероприятия:
Вебинар
Тип мероприятия:
Открытые
Целевая аудитория
Для инженеров данных, архитекторов Data Lake и Data Warehouse, а также разработчиков Big Data решений.
Преподаватель
Михаил Королев
Анонс программы
NoSQL (Not Only SQL) – это подход к реализации масштабируемого хранилища с гибкой моделью данных, когда проблемы масштабируемости (scalability) и доступности (availability), важные для Big Data решений, решаются за счёт атомарности (atomicity) и согласованности данных (consistency). Выделяют 4 типа NoSQL-СУБД:
Описание программы
1. Введение в NoSQL
Базовые принципы и компоненты Hadoop
Основные концепции и виды NoSQL решений
Архитектура Data Lake
Принципы формирование pipelines и Data Lake
2. Организация импорта данных
Apache Sqoop – основные принципы:
простой импорт и экспорт данных из реляционных источников
сценарии применения
Apache Spark – обзор возможностей:
импорт и экспорт данных из реляционных источников и файлов
нагруженный импорт данных с преобразованием для вложенных, JSON, XML форматов
Особенности использования форматов хранения файлов AVRO, ORC, Parquet.
3. Организация Hadoop SQL интерфейса доступа к данным на файловой системе HDFS
Apache Hive – интерфейс доступа для batch-процессинга данных на HDFS
Основные компоненты системы
Batch ...
Подробнее о программе
1. Введение в NoSQL
Базовые принципы и компоненты Hadoop
Основные концепции и виды NoSQL решений
Архитектура Data Lake
Принципы формирование pipelines и Data Lake
2. Организация импорта данных
Apache Sqoop – основные принципы:
простой импорт и экспорт данных из реляционных источников
сценарии применения
Apache Spark – обзор возможностей:
импорт и экспорт данных из реляционных источников и файлов
нагруженный импорт данных с преобразованием для вложенных, JSON, XML форматов
Особенности использования форматов хранения файлов AVRO, ORC, Parquet.
3. Организация Hadoop SQL интерфейса доступа к данным на файловой системе HDFS
Apache Hive – интерфейс доступа для batch-процессинга данных на HDFS
Основные компоненты системы
Batch процессинг с использованием движков MapReduce/Tez, LLAP, Spark – особенности
Тюнинг JOIN операций
Сценарии использования
Cloudera Impala – OLAP аналитика данных в MPP Hadoop
Особенности решения
Интеграция с Hive и HBase
Форматы файлов для Cloudera Impala (Parquet, ORC)
Особенности JOIN-операций
Сценарии использования
Spark SQL
Возможности фреймворка и предоставляемые API
Сложные преобразования и агрегация с использованием Spark SQL
Интеграция с Hive
Сценарии использования
4. NoSQL в Hadoop
Спектр возможностей NoSQL в экосистеме Hadoop
Apache HBase – для real-time доступа на чтение и запись
Архитектура решения, концепция CRUD,
Проектирование базы данных, выбор column family
Сценарии использования HBase
Использование Apache Phoenix для HBase
5. Организация хранилища MPP NoSQL на примере Greenplum/ArenadataDB
Концепция MPP и её реализация в Greenplum/ArenadataDB.
Загрузка и распределение данных. Сегментирование таблиц. Индексация