Лекция 1. Что такое Data Mining?
В лекции подробно рассмотрено понятие Data Mining. Описано возникновение, перспективы, проблемы Data mining. Дан взгляд на технологию Data Mining как на часть рынка информационных технологий.
Лекция 2. Данные
В лекции подробно рассматривается понятие данных. Объясняется значение понятий объект и атрибут, выборка, зависимая и независимая переменная. Подробно обсуждаются типы шкал. Приводятся различные типы наборов данных. Кратко рассмотрены понятия базы данных и СУБД.
Лекция 3. Методы и стадии Data Mining
В лекции описаны стадии Data Mining и действия, выполняемые в рамках этих стадий. Рассмотрены известные классификации методов Data Mining. Приведена сравнительная характеристика некоторых методов, основанная на их свойствах.
Лекция 4. Задачи Data Mining. Информация и знания
В лекции кратко описана основная суть задач Data Mining и их классификация. Подробно рассмотрены понятия "информация", "знания", а также дано сопоставление и сравнение этих понятий.
Лекция 5. Задачи Data Mining. Классификация и кластеризация
В этой лекции подробно рассматриваются две задачи Data Mining - классификация и кластеризация. Описаны суть задач, процесс решения, методы решения, применение. Приведено сравнение двух рассмотренных задач.
Лекция 6. Задачи Data Mining. Прогнозирование и визуализация
В лекции описана суть задачи прогнозирования. Рассмотрено понятие временного ряда, его компоненты, параметры прогнозирования, виды прогнозов. Кратко охарактеризована задача визуализации данных.
Лекция 7. Сферы применения Data Mining
В лекции рассмотрены основные сферы деятельности человека, где может успешно применяться технология Data Mining. Вводятся понятия Web Mining, Text Mining, Call Mining.
Лекция 8. Основы анализа данных
Лекция посвящена основам анализа данных, рассмотрены основные характеристики описательной статистики, кратко изложена суть корреляционного и регрессионного анализа. Приведены примеры решения задач в Microsoft Excel.
Лекция 9. Методы классификации и прогнозирования. Деревья решений
Описывается метод деревьев решений. Рассматриваются элементы дерева решения, процесс его построения. Приведены примеры деревьев, решающих задачу классификации. Даны алгоритмы конструирования деревьев решений CART и C4.5.
Лекция 10. Методы классификации и прогнозирования. Метод опорных векторов. Метод "ближайшего соседа". Байесовская классификация
Описаны основные идеи метода опорных векторов, метода "ближайшего соседа" и байесовской классификации. Рассмотрены преимущества и недостатки этих методов.
Лекция 11. Методы классификации и прогнозирования. Нейронные сети
В лекции описывается метод нейронных сетей. Рассмотрены элементы и архитектура, процесс обучения и явление переобучения нейронной сети. Описана такая модель нейронной сети как персептрон. Приведен пример решения задачи при помощи аппарата нейронных сетей.
Лекция 12. Нейронные сети. Самоорганизующиеся карты Кохонена.
В лекции продолжается описание работы с нейронными сетями, в частности, рассматриваются классификации нейронных сетей. Описан процесс подготовки данных для обучения. Подробно рассмотрены самоорганизующиеся карты Кохонена, приведен пример решения задачи.
Лекция 13. Методы кластерного анализа. Иерархические методы
В лекции рассматриваются основы кластерного анализа, математические характеристики кластера. Описаны две группы иерархического кластерного анализа: агломеративные и дивизимные методы. Приведен пример иерархического кластерного анализа в SPSS.
Лекция 14. Методы кластерного анализа. Итеративные методы.
Рассмотрены итеративные методы на примере алгоритма k-средних. Изложена основа факторного анализа и итеративная кластеризация в SPSS. Описан процесс кластерного анализа. Приведен сравнительный анализ иерархических и неиерархических методов и некоторые новые алгоритмы.
Лекция 15 .Методы поиска ассоциативных правил
В лекции описана суть задачи поиска ассоциативных правил. Рассмотрен алгоритм Apriori. Кратко изложена суть некоторых других алгоритмов. Рассмотрен пример решения задачи в аналитическом пакете Deductor.
Лекция 16. Способы визуального представления данных. Методы визуализации
В лекции рассматриваются методы и средства визуального представления информации, в частности, способы представления информации в одно-, двух-, трехмерном измерениях, а также способы отображения информации в более чем трех измерениях. Описаны принципы качественной визуализации. Изложены основные тенденции в области визуализации.
Лекция 17. Комплексный подход к внедрению Data Mining, OLAP и хранилищ данных в СППР
В лекции рассматриваются такой тип информационных систем, как СППР, их типы и компоненты. Изложены основные идеи OLAP-технологии, архитектуры OLAP-серверов, интеграции Data Mining и OLAP. Описана технология хранилищ данных и преимущества их использования, в частности, для процесса Data Mining.
Лекция 18. Процесс Data Mining. Начальные этапы
В лекции рассматриваются три первые этапа процесса Data Mining. Подробно описан процесс подготовки данных, введены понятия качества данных, грязных данных, этапы очистки данных.
Лекция 19. Процесс Data Mining. Очистка данных
Рассматриваются две классификации инструментов очистки и редактирования данных, основные функции инструментов очистки данных, классификация ошибок в данных, которые возникают в результате использования средств очистки данных.
Лекция 20. Процесс Data Mining. Построение и использование модели
В лекции рассматриваются этапы процесса Data Mining, связанные с построением, проверкой, оценкой, выбором и коррекцией моделей. Подробно исследуются понятия "модель" и "моделирование".
Лекция 21. Организационные и человеческие факторы в Data Mining. Стандарты Data Mining
В лекции процесс Data Mining рассматривается с точки зрения организационных факторов, а также в соответствии с известными методологиями CRISP и SEMMA. Кратко описываются стандарты, имеющие прямое и опосредованное отношение к Data Mining.
Лекция 22. Рынок инструментов Data Mining
В лекции рассматривается рынок инструментов Data Mining, в частности, его развитие, поставщики инструментов, классификация инструментов. Описаны критерии, по которым можно сравнивать и выбирать инструмент Data Mining.
Лекция 23. Инструменты Data Mining. SAS Enterprise Miner
В лекции рассматривается пакет SAS Enterprise Miner 5.1. Дан обзор программного продукта, описаны основные характеристики и технические требования пакета. Кратко описан подход SAS к созданию информационно-аналитических систем.
Лекция 24. Инструменты Data Mining. Система PolyAnalyst
В лекции описывается система PolyAnalyst. Рассматривается ее архитектура, аналитический инструментарий, краткая характеристика математических алгоритмов PolyAnalyst. Кратко охарактеризована система WebAnalyst.
Лекция 25. Инструменты Data Mining. Программные продукты Cognos и система STATISTICA Data Miner
В лекции рассмотрено два инструмента Data Mining. Первый из них - комплекс программных средств компании Cognos; описаны особенности методологии моделирования в системе. Второй инструмент - STATISTICA Data Miner, описаны средства анализа и схема работы.
Лекция 26. Инструменты Oracle Data Mining и Deductor
В лекции рассматриваются два продукта: Data Mining от Oracle и Deductor. Дана характеристика Oracle Data Mining, реализованные алгоритмы и функциональные возможности. Рассмотрена аналитическая платформа Deductor, архитектура ее системы и аналитические алгоритмы.
Лекция 27. Инструмент KXEN
Рассматривается программное обеспечение KXEN. Указываются отличия подхода KXEN от традиционного подхода Data Mining. Исследуются предпосылки создания системы KXEN и ее технические характеристики. Описаны ключевые компоненты системы KXEN. Разобрана технология IOLAP.
Лекция 28. Data Mining консалтинг
Рассмотрено понятие Data Mining-консалтинга, предоставления услуг по эффективному внедрению этой технологии. Описаны преимущества этого варианта. Изложена процедура работы консалтинговой компании SnowCactus с клиентом.
Экзамен