Совершенствование информационного поиска

В модели однословных сочетаний все слова рассматриваются как полностью независимые, но носителям языка известно, что некоторые слова обладают определенными связями, например, слово "couch" (кушетка) тесно связано со словами "couches" и "sofa". Во многих системах информационного поиска предпринимаются попытки учитывать подобные корреляции.
Например, если запрос сформулирован как [couch], то исключение из результирующего набора таких документов, в которых упоминаются слова "COUCH" или
"couches", но не "couch", было бы неправильным. В большинстве систем информационного поиска используются средства приведения к нижнему регистру, с помощью которых слово "COUCH" преобразуется в "couch", а во многих дополнительно применяется алгоритм выделения основы, позволяющий преобразовать слово "couches" в основную форму "couch". Применение указанных средств обычно позволяет добиться небольшого увеличения полноты выборки (для английского языка такое увеличение составляет порядка 2%). Но использование таких средств может привести к снижению точности. Например, после преобразования слова "stocking" в "stock" с помощью выделения основы обычно снижается точность применительно к запросам, относящимся либо к чулочно-носочным изделиям, либо к финансовым инструментам, хотя и может увеличить полноту выборки применительно к запросам о ведении домашнего хозяйства. Алгоритмы выделения основы, действующие с помощью фиксированных правил (например, правил, предусматривающих удаление суффикса "-ing"), не позволяют предотвратить возникновение этой проблемы, но новейшие алгоритмы, действующие на базе словаря (в которых суффикс "-ing" не удаляется, если слово с этим суффиксом имеется в словаре), позволяют решить эту проблему. Применение средств выделения основы в английском языке не позволяет добиться существенных результатов, но играет более важную роль в других языках. Например, в тексте на немецком языке нередко можно встретить слова наподобие "Lebensversicherungsgesellschaftsangestellter" (служащий компании страхования жизни). В таких языках, как финский, турецкий, инупик и юпик, имеются рекурсивные морфологические правила, которые позволяют в принципе составлять слова неограниченной длины.
Следующий этап состоит в том, что в системе предусматривается распознавание синонимов, например, таких, как "sofa" и "couch". Как и при использовании средств выделения основы, это позволяет добиться небольшого увеличения полноты выборки, но при непродуманном использовании этих средств возникает опасность снижения точности. Пользователи, желающие получить информацию о футболисте Тиме Коуче (Tim Couch), вряд ли хотели бы погрузиться в бесконечные объемы сведений о кушетках и диванах. Проблема состоит в том, что "языки не терпят абсолютной синонимии, так же как природа не терпит вакуума" [312]. Это означает, что при появлении в языке двух слов, соответствующих одному и тому же понятию, люди, говорящие на этом языке, совместными усилиями уточняют толкование таких слов для устранения путаницы.
Во многих системах информационного поиска в определенной степени используются двухсловные сочетания, но полная вероятностная модель двухсловных сочетаний реализована лишь в немногих системах. Кроме того, для исправления опечаток как в документах, так и в запросах могут использоваться процедуры коррекции орфографических ошибок.
В качестве последнего усовершенствования можно указать, что повышение качества функционирования системы информационного поиска достигается также с помощью использования метаданных — данных, внешних по отношению к тексту самого документа. К примерам таких данных относятся ключевые слова, подготовленные разработчиком документа, и гипертекстовые ссылки между документами.







Материалы

Яндекс.Метрика