1. Продвинутые возможности библиотек языка python для обработки и визуализации данных
Цель: познакомить участников с продвинутыми возможностями основных библиотек языка Python для обработки и визуализации данных и сформировать необходимые навыки по работе с данными в рассматриваемых библиотеках
Теоретическая часть:
-
изучение возможностей библиотек языка Python для обработки (Pandas, NumPy, SciPy, Sklearn) и визуализации (matplotlib, seaborn) данных.
-
обзор основных приемов по работе с данными:
-
первичный анализ данных
-
получение описательных статистик
-
изменение типа данных
-
построение сводных таблиц
-
визуализация статистических характеристик данных (гистограммы, графики плотностей распределений, тепловые карты, "ящики с усами" и "виолончели")
Практическая часть: решение практических задач обработки и визуализации данных на примере табличных данных.
2. Библиотеки python в корректировании типичных особенностей в данных
Цель: познакомить участников с основными особенностями в данных, с которыми приходится сталкиваться в реальных задачах, и научить успешно их корректировать с использованием библиотек языка Python. Продемонстрировать применение указанных подходов в случае промышленного варианта подготовки данных на примере использования Apache Spark (PySpark).
Теоретическая часть:
-
обзор типичных особенностей в данных и подходов к их корректировке:
-
отсутствующие значения
-
выбросы
-
дубликаты
-
подготовка данных для использования в алгоритмах машинного обучения:
-
нормализация числовых данных
-
преобразование категориальных значений
-
работа с текстовыми данными
Практическая часть: подготовка "сырых" данных для использования в алгоритме машинного обучения с подробным анализом влияния каждой особенности датасета на конечный результат работы алгоритма
3. Подходы к построению дополнительного признакового пространства на основе исходных данных
Цель: познакомить участников с основными подходами получения дополнительных и наиболее значимых характеристик из исходных данных. Продемонстрировать влияние дополнительных признаков на улучшение метрик качества работы алгоритмов машинного обучения с использованием библиотеки Sklearn
Теоретическая часть:
-
обзор подходов формирования дополнительного признакового пространства и выбора наиболее значимых характеристик
-
увеличение размерности исходного признакового пространства
-
постановка задачи в случае обучения с учителем – с использованием целевой переменной
-
постановка задачи в случае обучения без учителя
-
уменьшение размерности исходного признакового пространства
-
подробный анализ задачи увеличения размерности исходного признакового пространства в случае обучения с учителем:
-
статистические методы фильтрации признаков в задачах классификации и регрессии
-
методы машинного обучения как инструменты для получения наиболее значимых признаков в данных
Практическая часть: решение прикладной задачи построения дополнительного признакового пространства и получения наиболее значимых признаков с подробным анализом влияния рассмотренных теоретических подходов на конечный результат работы алгоритмов машинного обучения
4. Проектная работа
Цель: закрепить полученные слушателями курса знания по подготовке данных.
Теоретическая часть: краткий обзор пройденного материала со ссылками на рабочие блокноты, в которых решалась та или иная задача подготовки данных.
Практическая часть: самостоятельное решение задачи подготовки датасета для машинного обучения с использованием собственной базы данных или на лабораторном наборе от организаторов курса. Итоговый разбор работ слушателей курса.
Курс позволит вам получить “продвинутые” знания и прикладные навыки подготовки "сырых" датасетов для получения качественных результатов ML-моделирования и интеллектуального анализа данных.
Также курс "Подготовка данных для Data Mining на Python" будет полезен специалистам по работе с большими данными, разработчикам и руководителям, которые хотят понять подходы к подготовке данных для решения бизнес-задач с помощью Machine Learning и получить практические навыки в этой области.