1. Обзор Apache Spark
Архитектура Spark. Обзор компонентов Spark и их назначения
2. Основные абстракции Apache Spark
Трансформации и действия, Lazy Evaluation
3. Знакомство с Dataframes
Structured API и основная абстракция Spark – Dataframe
4. Знакомство со Spark RDD
Low Level API, использование Resilient Distributed Dataset
5. Apache Spark SQL
Получение данных из SQL-источников и обработка данных с помощью Spark SQL
Отправка данных в SQL СУБД и работа с Hive QL
Spark SQL и Hadoop
6. Работа с источниками данных
Ввод и вывод в Apache Spark
Работа с файлами и базами данных
7. Производительность и параллелизм в Apache Spark
Планы выполнения запроса: логические и физические
8. Конфигурирование Apache Spark
Принципы конфигурирования и основные настройки
9. Spark Streaming
Разница работы в режимах OLAP и OLTP. Основной workflow
Виды Spark Streams. Особенности исполнения streaming кода
Checkpoint в Spark Streaming
10. GraphX
Задачи графов в программировании. Место графов в модели распределенных вычислений
Представление графов в GraphX. Операции с графами
11. MLLib
Задачи машинного обучения и проблематика больших данных
Основные возможности Spark MLLib
12. Обработка слабоструктурированных данных
Работа с JSON файлами и строками
Обработка информации, представленной в виде XML