У вас уже есть заявка на текущий период.
Если вы хотите, чтобы данная программа участвовала в розыгрыше гранта в этом месяце, необходимо добавить ее в папку "Интересные мероприятия".
Или создайте заявку на другой период.
25.01.2016 - Уточните расписание у организатора. Возможно он не успел обновить расписание.
Форма обучения:
Вечерняя
Вид мероприятия:
Курсы
Тип мероприятия:
Открытые
Целевая аудитория
Если вы приходите в восторг от слов «дата», «питон», «граф», «ближайшие соседи», «деревья решений», добро пожаловать к нам в школу. А еще вы должны быть знакомы с математической статистикой и иметь опыт программирования на языке Python.
Преподаватель
Сергей Марин - Руководитель Лаборатории Big Data в ПАО «Вымпелком», CEO и сооснователь XL Data. Ранее, руководитель службы Business Intelligence и Data Mining в Адидас Россия и функции Business Intelligence в KPN в Нидерландах.
Александр Крот, CEO и основатель ML Class. Ранее, руководитель разработки Big Data продуктов в Аналитическом центре Правительства РФ, а также Senior Software Engineer в Askeroid (Sadko Mobile Inc.).
Юрий Кашницкий, Преподаватель факультета компьютерных наук, научный сотрудник и аспирант НИУ ВШЭ, преподаватель языка Python и машинного обучения в MLClass. Ранее - разработчик Hadoop, бизнес-аналитик и Java-программист РДТЕХ.
Дмитрий Игнатов, Кандидат технических наук, работает доцентом Департамента анализа данных и искусственного интеллекта на Факультете компьютерных наук и научным сотрудником международной лаборатории «Интеллектуальных систем и структурного анализа» в НИУ ВШЭ.
Анонс программы
Интенсивный курс по изучению машинного обучения и анализа данных.
На занятиях мы не только читаем лекции, но и решаем реальные бизнес-задачи как на малых, так и больших данных. Практика на каждом занятии.
Все участники соревнуются между собой в течение всего обучения. Финал — реальное состязание на Kaggle.
После окончания школы всем участникам выдаются сертификаты. Лучшие получают рекомендацию на работу мечты.
Также участники смогут самостоятельно применять на практике представленные в школе методы машинного обучения и решать задачи анализа данных.
Описание программы
1. Введение в машинное обучение 1
Теория
Основные понятия машинного обучения
Классификация задач
Понятие объекта и признака
Извлечение, отбор и преобразование признаков
Практическая часть
Знакомство с основными библиотеками Python для анализа данных (в том числе визуализации) и машинного обучения: NumPy, SciPy, Pandas, Matplotlib
Обзор Jupyter Notebooks как средства подачи материала, включающего код
Знакомство с прочими инструментами анализа данных — язык R
2. Введение в машинное обучение 2
Теория
Оценка качества алгоритмов
Понятие переобучения и борьба с ним
Процесс разработки алгоритма под конкретную задачу
Практическая часть
Знакомство с библиотекой машинного обучения Scikit-Learn
3. Обучение с учителем 1
Теория
Введение в supervised learning
Задачи классификации и регрессии
Линейные методы классификации
Машина опорных векторов
Практическая ...
Подробнее о программе
1. Введение в машинное обучение 1
Теория
Основные понятия машинного обучения
Классификация задач
Понятие объекта и признака
Извлечение, отбор и преобразование признаков
Практическая часть
Знакомство с основными библиотеками Python для анализа данных (в том числе визуализации) и машинного обучения: NumPy, SciPy, Pandas, Matplotlib
Обзор Jupyter Notebooks как средства подачи материала, включающего код
Знакомство с прочими инструментами анализа данных — язык R
2. Введение в машинное обучение 2
Теория
Оценка качества алгоритмов
Понятие переобучения и борьба с ним
Процесс разработки алгоритма под конкретную задачу
Практическая часть
Знакомство с библиотекой машинного обучения Scikit-Learn
3. Обучение с учителем 1
Теория
Введение в supervised learning
Задачи классификации и регрессии
Линейные методы классификации
Машина опорных векторов
Практическая часть
Примеры решения задач классификации и регрессии — наборы данных UCI, прогнозирование склонности к оттоку
4. Обучение с учителем 2
Теория
Нейронные сети
Построение ансамблей алгоритмов
Boosting & Bagging
Практическая часть
Примеры решения задач классификации и регрессии — наборы данных UCI, прогнозирование прибыли ресторана
5. Обучение без учителя
Теория
Введение в unsupervised learning
Задача кластеризации — алгоритм k-means
Иерархическая кластеризация
Спектральная кластеризация
Плотностные методы кластеризации
Методы снижения размерности пространства признаков: кластеризация, метод главных компонент (PCA)
Поиск аномалий в данных
Практическая часть
Пример поиска аномалий в данных
Решение задачи телематики (определение профиля вождения), кластеризации городов по социально-экономическим показателям
6. Обнаружение знаний в данных (Pattern Mining)
Теория
Поиск частых множеств (товаров) и ассоциативные правила
Алгоритмы Apriori и FP-growth
Поиск частых, сильно разделяющих паттернов (frequent diverse patterns и emerging patterns)
Поиск паттернов с ограничениями (constraints)
Поиск частых последовательностей
Поиск частых подграфов
Практическая часть
Знакомство с инструментом SPMF
Анализ последовательностей на примере демографических данных
7. Анализ социальных сетей
Теория
Введение в теорию графов
Классические алгоритмы на графах
Поиск в ширину и поиск в глубину
Алгоритм PageRank
Применение машинного обучения в графовых задачах
Алгоритмы поиска связных компонет в графе
Обнаружение групп в соцсетях
Практическая часть
Решение задачи рекомендации друзей в социальных сетях (Link Prediction)
Обзор инструмента Gephi
8. Рекомендательные системы
Теория
Введение в коллаборативную фильтрацию
Item-Based и User-Based подходы к задаче рекомендации. Выбор меры сходства.
Оценка качества рекомендательной системы
Рекомендации на основе ассоциативных правил
Методы на основе матричной факторизации (SVD, PLSA, LDA, BMF)
Мультимодальная кластеризация и рекомендации в фолксономиях
Практическая часть
Case-study: рекомендация
9. Обработка текстов
Теория
Задачи обработки естественного языка (NLP)
Предобработка текстов: лемматизация, стемминг, синтаксический и морфологический анализ
Модели представления текстов: мешок слов, VSM, синтаксические деревья
Современные методы: word2vec, topic modeling
Практическая часть
Поиск ключевых слов, определение сходства документов, кластеризация текстов, поиск похожих слов
10. Введение в анализ больших данных
Теория
Распределенное хранение данных
Инструменты анализа больших данных
Реализация алгоритмов машинного обучения в парадигме MapReduce
Data Mining на больших данных
Машинное обучение: подход MapReduce
Машинное обучение: онлайн-обучение
Стохастический градиентный спуск
Концепция вычислений в памяти и устойчивых распределенных наборов данных (RDD)
Обзор инструмента Apache Spark
Практическая часть
Анализ логов с Apache Spark
11. Машинное обучение на больших данных, анализ больших графов
Теория
Обзор библиотек MLlib и GraphX Apache Spark
Реализация алгоритмов на графах в парадигме MapReduce
Методы оценки сходства больших графов (соцсетей)
Практическая часть
Пример решения задачи классификации со Spark MLlib
Обзор графовых алгоритмов в Spark GraphX
Соревнования по анализу данных
Теория
Обзор системы Kaggle
Особенности задач в соревнованиях по машинному обучению
Отличия задач с соревнований от реальных бизнес-задач
Практическая часть
Выход в Top10% LeaderBoard на Kaggle в реальном времени
Занятия будут проходить по понедельникам и пятницам с 19.00 до 21.00 в офисе компании «Билайн».