КурсыMBAКомпанииГранты на обучениеВузыПовысь зарплату

EduMarket Образование
  Вход на сайт
 
Напомнить   
Запомнить меня
 
Пользовательское соглашение


Публикации и новости

Анонсы и релизы (592)

 

Бесплатные видеокурсы (3013)

 

Статьи (2986)

 

Новости (550)

 

Победители конкурса грантов (124)

 


 
СМИ / Бесплатные видеокурсы / IT: Интернет / Бесплатные видеолекции: Современные методы и средства построения систем информационного поиска (часть 2)

Бесплатные видеолекции: Современные методы и средства построения систем информационного поиска (часть 2)

назад к части 1

Окончание

Продолжительность этой части (7 видео из 15-ти): 12 ч 34 мин

Лекция №9 "Дизайн поисковой выдачи. Сниппеты. Оценка качества поиска"

Примеры дизайнов страниц поисковых выдач разных ресурсов. Компоненты SERP. Органические результаты. Выделение параграфов. Разбиение на предложения. Формирование сниппета, общий алгоритм формирования. Обогащение сниппетов. Метрики сниппетов. Оценка асессорами. Метрики качества поисковой системы. Качество поиска. Стандартные коллекции. TREC. Точность/полнота. Критика чистой релевантности. Маркерные тесты. Поиск периферийных сайтов. Региональная навигация. Тематический поиск. Общее качество поиска. Асессорская служба. Оценка релевантности документа. Кросс-валидация. SOM-карты. Автопоиск ошибок. Онлайн-метрики. Оценка гипотез. Кликовые метрики. Корреляция с асессорами.



Лекция №10 "Особенности web-поиска. Спайдер"

Популярность пользования поиском. История поисковых систем. Основы web-поиска. Потребности пользователей. Эмпирическая оценка поисковых результатов пользователем. Коллекция web-документов. Поисковая реклама, как она ранжируется, каковы её плюсы и минусы. Спайдер, его задачи. Очередь URL’ов. Поисковые роботы. Основная архитектура спайдера. Парсинг: нормализация URL. Распределённый спайдер. Взаимодействие серверов. Схема Mercator. Front queues, back queues. Свежесть базы. Deep Web (труднодоступные сайты). Карты сайтов. Хранение документов. Удаление шума.



Лекция №11 "Поиск дубликатов в Web"


Сравнение документов: точные дубликаты, неточные, почти дубликаты, версии для печати. Три этапа определения похожих документов. Шинглы (shingles), опция сжатия. Множественная модель, матричная модель. Поиск похожих колонок. Сигнатуры. Выявление похожего множества (minhashing). Поиск похожих пар. Отбор кандидатов из сигнатур Minhash. Locality-sensitive hashing. Распределение по частям и по корзинам. LSH-компромиссы. Поиск дубликатов в Web.



Лекция №12 "Применение самоорганизующихся карт в поисковой машине"

Лекция разбита на две части. Первая часть: вопросы приоритезации спайдера поисковой машины, алгоритмы сегментации больших сайтов на части и распределение приоритетов обкачки сегментов. Вторая часть: алгоритмы анализа и визуализации больших объемов данных при помощи самоорганизующихся карт Кохонена (SOM), применение этого инструмента в задаче анализа структуры веба и приоритезации поискового робота, возможность применения SOM для анализа данных в различных областях разработки поискового движка.



Лекция №13 "Выявление спам-сайтов на основе анализа контента страниц"

Различные аспекты очистки поискового индекса от мусора. Вопросы построения классификаторов. Базовые темы машинного обучения: правильное построение обучающего множества, генерация признаков выбор алгоритмов классификации. Проблематика построения классификаторов для различных классов данных.



Лекция №14 "Поведенческое и ссылочное ранжирование"

Вычисление поведенческой релевантности. Индексация анкорного текста. Алгоритм HITS, Page Rank. Метод блочной структуры. Системы для обработки графов.



Лекция №15 "Ранжирование с машинным обучением"

Классическое ранжирование. Факторы ранжирования. Ранжирование на основе машинного обучения. Специфика задачи машинного обучения ранжированию. Формальная постановка задачи. Градиентный спуск. Деревья решений. “Невнимательные” деревья решений. Алгоритмические композиции над деревьями решений (bagging, boosting). Стакинг. Алгоритм BagBoo. Вопросы построения обучающих данных. Активное обучение. Сэмплирование неопределённости. Комитетные методы активного обучения. Применение самоорганизующихся карт для сэмплирования обучающих данных. Алгоритм SOM+QBag для активного обучения ранжированию.

Другие бесплатные видеокурсы
Все бесплатные видеокурсы, Обучение в интернете
Пользовательское соглашение       Обратная связь       Карта сайта

© 2006—2024 Edumarket