В Институте информационных технологий НАНА состоялся научный семинар Отдела №2 на тему «Анализ методов повышения эффективности поисковой системы: проблемы и подходы».
Доклад представил диссертант института Сулейман Сулейманзаде. Он довел до сведения основные идеи теории информационного поиска (Information Retrieval, IR). Описывая ключевые компоненты IR систем, он сказал, что нахождение документов, которые соответствуют запросам пользователей в больших текстовых коллекциях, является основной целью традиционных IR систем. Он сказал, что поисковые инструменты являются основой IR систем. В зависимости от областей применения, существуют различные типы поисковых программ, такие как вертикальные и desktop и т. д.
С. Сулейманзаде отметил, что информационно-поисковые системы выполняют две важные функции, такие как индексация и поиск. Он сказал, что индексирование реализует единое описание изображения документов и запросов, а поисковая функция оценивает релевантность документов относительно запросов на основе единого описания документов и запросов.
Выступивший сказал, что для поисковых информационных систем было предложено большое количество эталонных архитектур. По его словам, первым вопросом информационно-поисковой системы является первичная обработка документов. В каждом документе каждый из его компонентов представляет собой отдельную поисковую систему, и эти компоненты позволяют выполнять поиск по заголовку, сводке или тексту документа.
Он довел до сведения, что существует много классических моделей в области поиска информации и дал обширная информация о таких моделях, как Boolean IR Model, Vector Space, Okapi BM25, статистический язык, вероятные IR модели, нейронные сети.
По его словам, термин, используемый для оценки релевантность документов относительно опросов, представляет собой идентификаторы контента, которые присваиваются документам, и этот процесс называется индексированием. Он сказал, что для указания степени термов им назначается вес.
С. Сулейманзаде отметил, что для оценки эффективности поиска используются два параметра: «precision» и «recall». «Precision» указывает, сколько из найденных документов имеют отношение к запросу пользователя, а «recall» указывает, сколько соответствующих документов в коллекции было найдено.
Он сказал, что эффективность методов поиска информации в поисковой системе была проверена на таких популярных базах, как Cranfield, Reuters Corpus Volume I (RCV1), OHSUMED, TREC.
В заключение состоялся обмен мнениями относительно отчета, были озвучены ответы на вопросы.