У вас уже есть заявка на текущий период.
Если вы хотите, чтобы данная программа участвовала в розыгрыше гранта в этом месяце, необходимо добавить ее в папку "Интересные мероприятия".
Или создайте заявку на другой период.
22.07.2019 - 25.07.2019 16.12.2019 - 19.12.2019 29.09.2020 - 02.10.2020 16.11.2020 - 19.11.2020 Уточните расписание у организатора. Возможно он не успел обновить расписание.
Форма обучения:
Очная/дневная
Вид мероприятия:
Курсы
Тип мероприятия:
Открытые
Целевая аудитория
Архитекторы Data lakes, Аналитики данных, дата-инженеры, отвечающие за процессы сбора, подготовки данных и очистки больших данных.
Преподаватель
Николай Комиссаренко
Анонс программы
Процесс сбора и подготовки данных — один из самых трудоемких и сложных этапов в анализе больших объемов данных, который порой занимает до 80% всего времени. Использование статистических методик и современного программного обеспечения позволяет значительно сократить временные и финансовые затраты на данном этапе, и повысить эффективность и качество конечных результатов.
Описание программы
Введение в Data Mining
Процессный подход Data Mining. Data Lake концепция
Стандарты CRISP-DM и SEMMA
Фазы жизненного цикла процессов Data Mining
Подход Data provenance — происхождение данных. Тэгирование данных
Подход Data Lineage и документирование
Важность фазы подготовки данных для формирования озера данных
Целевая функция
Целевая функции, и ее содержание.
Основные принципы формирования целевой функции
Формат зависимых переменных
Зависимые переменные. Типы зависимых переменных и преобразование шкал (нормализация данных)
Приведение форматов даты и времени
Приведение форматов Locale
Тестовая выборка
Формирование тестовой выборки, ее содержание и объем по отношению ко всему объему исходных данных
Основные принципы формирования ...
Подробнее о программе
Введение в Data Mining
Процессный подход Data Mining. Data Lake концепция
Стандарты CRISP-DM и SEMMA
Фазы жизненного цикла процессов Data Mining
Подход Data provenance — происхождение данных. Тэгирование данных
Подход Data Lineage и документирование
Важность фазы подготовки данных для формирования озера данных
Целевая функция
Целевая функции, и ее содержание.
Основные принципы формирования целевой функции
Формат зависимых переменных
Зависимые переменные. Типы зависимых переменных и преобразование шкал (нормализация данных)
Приведение форматов даты и времени
Приведение форматов Locale
Тестовая выборка
Формирование тестовой выборки, ее содержание и объем по отношению ко всему объему исходных данных
Основные принципы формирования тестовой выборки
Валидационная выборка
Понятие валидационной выборки, ее содержание и объем по отношению ко всему объему исходных данных
Основные принципы формирования тестовой выборки и валидационной
Анализ выбросов
Понятие «выбросов» (Outliers) и их анализ
Проверка на нормальность распределения
Тестирование входных параметров на нормальность распределения
Параметрическая статистика
Отcутствующие значения в исходных данных
Отсутствующие значения (Missing values)
Правила замены (генерации) отсутствующих данных или опущения (ommit)
Регрессионные модели данных
Понятие регрессионных моделей, и их сильные и слабые стороны
Проверка на мультиколлинеарность (Multicollinearity)
Заключительный проект по подготовке данных
Выполнение полного цикла очистки и подготовки данных на примере выбранного dataset