Совершенствование информационного поиска

В модели однословных сочетаний все слова рассматриваются как полностью независимые, но носителям языка известно, что некоторые слова обладают определенными связями, например, слово "couch" (кушетка) тесно связано со словами "couches" и "sofa". Во многих системах информационного поиска предпринимаются попытки учитывать подобные корреляции.
Например, если запрос сформулирован как [couch], то исключение из результирующего набора таких документов, в которых упоминаются слова "COUCH" или
"couches", но не "couch", было бы неправильным. В большинстве систем информационного поиска используются средства приведения к нижнему регистру, с помощью которых слово "COUCH" преобразуется в "couch", а во многих дополнительно применяется алгоритм выделения основы, позволяющий преобразовать слово "couches" в основную форму "couch". Применение указанных средств обычно позволяет добиться небольшого увеличения полноты выборки (для английского языка такое увеличение составляет порядка 2%). Но использование таких средств может привести к снижению точности. Например, после преобразования слова "stocking" в "stock" с помощью выделения основы обычно снижается точность применительно к запросам, относящимся либо к чулочно-носочным изделиям, либо к финансовым инструментам, хотя и может увеличить полноту выборки применительно к запросам о ведении домашнего хозяйства. Алгоритмы выделения основы, действующие с помощью фиксированных правил (например, правил, предусматривающих удаление суффикса "-ing"), не позволяют предотвратить возникновение этой проблемы, но новейшие алгоритмы, действующие на базе словаря (в которых суффикс "-ing" не удаляется, если слово с этим суффиксом имеется в словаре), позволяют решить эту проблему. Применение средств выделения основы в английском языке не позволяет добиться существенных результатов, но играет более важную роль в других языках. Например, в тексте на немецком языке нередко можно встретить слова наподобие "Lebensversicherungsgesellschaftsangestellter" (служащий компании страхования жизни). В таких языках, как финский, турецкий, инупик и юпик, имеются рекурсивные морфологические правила, которые позволяют в принципе составлять слова неограниченной длины.
Следующий этап состоит в том, что в системе предусматривается распознавание синонимов, например, таких, как "sofa" и "couch". Как и при использовании средств выделения основы, это позволяет добиться небольшого увеличения полноты выборки, но при непродуманном использовании этих средств возникает опасность снижения точности. Пользователи, желающие получить информацию о футболисте Тиме Коуче (Tim Couch), вряд ли хотели бы погрузиться в бесконечные объемы сведений о кушетках и диванах. Проблема состоит в том, что "языки не терпят абсолютной синонимии, так же как природа не терпит вакуума" [312]. Это означает, что при появлении в языке двух слов, соответствующих одному и тому же понятию, люди, говорящие на этом языке, совместными усилиями уточняют толкование таких слов для устранения путаницы.
Во многих системах информационного поиска в определенной степени используются двухсловные сочетания, но полная вероятностная модель двухсловных сочетаний реализована лишь в немногих системах. Кроме того, для исправления опечаток как в документах, так и в запросах могут использоваться процедуры коррекции орфографических ошибок.
В качестве последнего усовершенствования можно указать, что повышение качества функционирования системы информационного поиска достигается также с помощью использования метаданных — данных, внешних по отношению к тексту самого документа. К примерам таких данных относятся ключевые слова, подготовленные разработчиком документа, и гипертекстовые ссылки между документами.

Материалы

ПОИСК СТРАТЕГИИ

БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ ЗАМЕТКИ

УПРАЖНЕНИЯ

ОБЩЕНИЕ

ОБЩЕНИЕ КАК ДЕЙСТВИЕ

Основные понятия языка

ФОРМАЛЬНАЯ ГРАММАТИКА ДЛЯ ПОДМНОЖЕСТВА АНГЛИЙСКОГО ЯЗЫКА

Грамматика языка

СИНТАКСИЧЕСКИЙ АНАЛИЗ (СИНТАКСИЧЕСКИЙ РАЗБОР)

Эффективный синтаксический анализ

РАСШИРЕННЫЕ ГРАММАТИКИ

Субкатегоризация глагола

СЕМАНТИЧЕСКАЯ ИНТЕРПРЕТАЦИЯ

Семантика небольшой части английского языка

Время события и времена глаголов

Прагматическая интерпретация

НЕОДНОЗНАЧНОСТЬ И УСТРАНЕНИЕ НЕОДНОЗНАЧНОСТИ

Устранение неоднозначности

ПОНИМАНИЕ РЕЧИ

Структура связной речи

ИНДУКТИВНЫЙ ВЫВОД ГРАММАТИКИ

БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ ЗАМЕТКИ

УПРАЖНЕНИЯ

ВЕРОЯТНОСТНАЯ ОБРАБОТКА ЛИНГВИСТИЧЕСКОЙ ИНФОРМАЦИИ

Вероятностные контекстно-свободные грамматики

Определение с помощью обучения вероятностей для грамматики PCFG

ИНФОРМАЦИОННЫЙ ПОИСК

Сравнительный анализ систем информационного поиска

Совершенствование информационного поиска

Способы представления результирующих наборов

Создание систем информационного поиска

ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ

МАШИННЫЙ ПЕРЕВОД

Системы машинного перевода

Статистический машинный перевод

Определение с помощью обучения вероятностей для машинного перевода

БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ ЗАМЕТКИ

УПРАЖНЕНИЯ

ВОСПРИЯТИЕ

ФОРМИРОВАНИЕ ИЗОБРАЖЕНИЯ

Системы линз

Свет: фотометрия формирования изображения

Цвет — спектрофотометрия формирования изображения

ОПЕРАЦИИ, ВЫПОЛНЯЕМЫЕ НА ПЕРВОМ ЭТАПЕ ОБРАБОТКИ ИЗОБРАЖЕНИЯ

Обнаружение краев

Сегментация изображения

ИЗВЛЕЧЕНИЕ ТРЕХМЕРНОЙ ИНФОРМАЦИИ

Движение

Бинокулярные стереоданные

Градиенты текстуры

Разделы

Поцелуй по расчету
Поэма Содди
Задача о сферах
Многомерность
Гость из четвертого измерения
Четырехмерный симплекс
Возможности нового измерения
Эксперимент Цельнера
Геометрия - это интуиция
Ущербность нашего восприятия
Объем - в плоскость
Наш плоский объемный мир
Мебиусиана
Односторонность листа Мебиуса
Топология - из листа Мебиуса
Число Бетти
Хроматический номер
Справа, где сердце
Бутылка Клейна
Мебиус и микромир
Левый и Правый Мебиусы
Эксперимент By Цзянь-сюн
Двухкомпонентная теория нейтрино
Зеркальные двойники
Роль формы
Вселенная искривляется
Тензорный анализ
Теория Вселенной Эйнштейна
Пульс Вселенной
Великолепная пятерка
О божественной пропорции
«Начала» Евклида
Доказательство Эйлера
Символы Шлефли
Гамильтонова линия
Изопиранная задача
Интуиция царицы Дидоны
Как управляется мир
Серьезные игры
Искусство орнамента
Федоровские группы
Игры Эсхера
Симметрии Эсхера
Нефедоровская кристаллография
Мировая гармония
Удавшаяся провокация
«Колючий» ёж Кеплера
Фигура Петри
Теория многогранников
Правильные и почти правильные тела
Песок расширяется!
Кубическая плотная упаковка
Плотность упаковки
Дома на песке
Тайные связи
Музыка сфер
Подкупающая простота
Модели Дончияна
Полезные политопы
Организация пространства
Радость видеть и понимать
Теории Земли
Бейсбольный мяч планеты
Катенаны
Вечный Геометр
Цепь причин и следствий
Счастливый случай
Метод Монте-Карло
Вероятностные методы
Бросаем песчинку
Сходство схем
Задачи распространения тепла
Случайные траектории
Возможности равны
Случай в игре
Игры с таблицей
Новые осложнения
Хуже-лучше
Расшифровка кодов
Роль элемента случайности
Обучение и случайность
Обучение автоматов
«Школьная» схема обучения
Обучение — самообучение
Шаблон поведения
Уметь пользоваться памятью
Опыты И. П. Павлова
Условный рефлекс
Связь между нейронами
Носитель памяти
Механизм образования условного рефлекса
Механизм «вспоминания»
Структура нервной сети
Простой эксперимент
Проблема опознания
Что такое опознание
Зрительные образы
Персептрон
Различаемые образы
Что умеет персептрон
Свойства персептрона
Залог опознания образов
Роль случайности в эволюции
К чему приводят мутации
Естественный отбор
«Безжалостность» законов природы
Приспособление вида
Схема гомеостата
Идея Эшби
Усилитель отбора
Усилитель мыслительных способностей
Схема искусственного отбора
Самонастраивающиеся системы и случайность
Непохожесть систем
Критерий близости к совершенству
Самонастраивающиеся системы
Наладчик сложных систем
Метод компенсации
Как настроить
Устройство автомата
Держим точный размер
Анализ станка-автомата
Обратное воздействие
Способ Гаусса — Зейделя
Анализ настроек
Метод градиента
Метод случайной настройки
Метод случайного поиска
Программа случайного поиска
Схема случайного поиска
Самонастраивающаяся система
Источник неограниченных возможностей

Искусственный интеллект. Современный подход