Устранение неоднозначности
Как было указано выше, устранение неоднозначности — это проблема определения диагноза. Намерение говорящего сообщить информацию становится ненаблюдаемой причиной появления слов в виде фрагмента речи, а задача получателя заключается в том, чтобы проделать эту работу в обратном направлении исходя из сказанных слов и знания ситуации, чтобы определить намерение говорящего с наибольшей вероятностью. Иными словами, получатель находит решение для следующей задачи:
argmax Likelihood(intent \ words, situation) intent
где Likelihood может представлять собой либо вероятность, либо любую другую числовую меру предпочтения. Предпочтение того или иного рода является необходимым, поскольку правила синтаксической и семантической интерпретации, отдельно взятые, не позволяют выявить уникальную правильную интерпретацию словосочетания или предложения. Поэтому данная работа делится на части: средства синтаксической и семантической интерпретация обеспечивают формирование множества потенциальных интерпретаций, а в процессе устранения неоднозначности среди них выбирается наилучшая.
Обратите внимание на то, что выше было указано на намерение исполнителя речевого акта, а не просто на фактическое высказывание, провозглашаемое говорящим. Например, услышав от политика слова: "I am not a crook", можно формально назначить вероятность только 50%, что эти слова соответствуют высказыванию о том, что данный политик — не преступник, и 99,999% — высказыванию, что говорящий — не кривой посох пастуха. Тем не менее все равно следует присвоить большую вероятность следующей интерпретации, поскольку скорее всего именно это и подразумевалось:
Assert {Speaker, -(Speaker е Criminals))
Рассмотрим еще раз пример неоднозначного предложения: "I smelled a wumpus in [2,2]". Одной из предпочтительных эвристик является правило правой ассоциации, которое гласит, что во время принятия решения о том, где можно поместить в дереве синтаксического анализа словосочетание РР "in [2,2]", следует предпочесть вариант с размещением его в самой правой существующей составляющей, а в данном случае таковой является словосочетание NP "a wumpus". Безусловно, это — всего лишь эвристика; при обработке предложения "I smelled a wumpus with my nose" (Я почувствовал запах вампуса носом) эта эвристика будет перевешиваться тем фактом, что словосочетание NP "a wumpus with my nose" (вампус с моим носом) является маловероятным.
Устранение неоднозначности обеспечивается путем комбинирования свидетельств с использованием всех методов представления знаний и формирования рассуждений в условиях неопределенности, которые рассматривались до сих пор в настоящей книге. Все эти знания можно разбить на четыре описанных ниже модели.
1. Модель мира. Вероятность того, что некоторое высказывание является истинным в рассматриваемом мире.
2. Мыслительная модель. Вероятность того, что отправитель оформляет свое намерение сообщить о некотором факте получателю, при условии, что этот факт имел место. В таком подходе комбинируются модели того, в чем уверен отправитель, что думает отправитель о том, в чем уверен получатель, и т.д.
3. Языковая модель. Вероятность того, что будет выбрана определенная строка слов, при том условии, что отправитель имеет намерение сообщить определенный факт. Модели CFG и DCG, представленные в данной главе, имеют
1.
булеву модель правдоподобия; в ней строка может иметь или не иметь определенную интерпретацию. В следующей главе рассматривается вероятностная версия грамматики CFG, позволяющая создать более информационно насыщенную языковую модель для устранения неоднозначности.
4. Акустическая модель. Вероятность того, что будет сформирована определенная последовательность звуков с учетом того, что отправитель выбрал данную конкретную строку слов. Задачи распознавания речи рассматриваются в разделе