Вероятностные контекстно-свободные грамматики

В моделях n-элементных сочетаний используются статистические данные о совместном появлении элементов в текстовой совокупности, но эти модели не позволяют учитывать грамматические связи на расстояниях, превышающих п. В качестве альтернативной языковой модели может служить вероятностная контекстно-свободная грамматика, или PCFG1 (Probabilistic Context-Free Grammar), которая представляет собой такую грамматику CFG, где каждое правило подстановки имеет связанную с ним вероятность. Сумма вероятностей по всем правилам с одной и той же левой частью равна 1. Грамматика PCFG для части грамматики языка ?0 приведена в листинге 23.2.
В модели PCFG вероятность строки, Р {words), представляет собой сумму вероятностей деревьев синтаксического анализа этой строки. А вероятность данного конкретного дерева представляет собой произведение вероятностей всех правил, на основании которых сформированы узлы этого дерева. На рис. 23.1 показано, как вычислить вероятность некоторого предложения. Такую вероятность можно вычислить, применяя синтаксический анализатор диаграмм CFG для перечисления возможных вариантов синтаксического анализа, а затем складывая полученные вероятности. Но если нас интересует только наиболее вероятный вариант синтаксического анализа, то перебор всех маловероятных вариантов представляет собой бесполезную трату времени. Для эффективного поиска наиболее вероятного варианта синтаксического анализа может использоваться одна из разновидностей алгоритма Витерби или же какой-то метод поиска по первому наилучшему совпадению (такой как А*).
Листинг 23.2. Вероятностная контекстно-свободная грамматика (PCFG) и словарь для части грамматики языка ?0- Числа в квадратных скобках показывают вероятность того, что вместо символа в левой части правила будет выполнена подстановка правой части соответствующего правила
Недостатком грамматик PCFG является то, что они — контекстно-свободные. Это означает, что различие между P("eat a banana"), "съешь банан", и Р{ "eat a bandanna"), "съешь цветной платок", зависит только от соотношения вероятностей Р{ "banana") и Р{ "bandanna"), а не от вероятностей возникновения отношений между глаголом "eat" и соответствующими объектами. Для того чтобы можно было учитывать связи такого рода, нам потребуется контекстно-зависимая модель определенного типа наподобие лексикализованной грамматики PCFG, в которой определенную роль в оценке вероятности соответствующего словосочетания может играть голова2 этого словосочетания. При наличии достаточного объема обучающих данных может быть получено правило для VP —> VP NP, обусловленное наличием головы входящего в него словосочетания VP (MeatM) и головы словосочетания NP ("banana"). Таким образом, лексикализованные грамматики PCFG позволяют учитывать некоторые ограничения на совместное вхождение элементов в моделях л-элементных сочетаний, наряду с грамматическими ограничениями моделей CFG.
Еще один недостаток состоит в том, что грамматики PCFG обнаруживают слишком заметное предпочтение по отношению к более коротким предложениям. В такой текстовой совокупности, как архив журнала Wall Street Journal, средняя длина предложения составляет около 25 слов. Но обычно грамматика PCFG в конечном итоге присваивает гораздо более высокую вероятность таким правилам, как S->NP VP, NP-Pronoun и VP->Verb. Это означает, что грамматика PCFG присваивает весьма высокую вероятность многим коротким предложениям, таким как "Не slept" (Он спал), тогда как в указанном журнале с большей вероятностью встречаются предложения наподобие следующего: "It has been reported by a reliable government source that the allegation that he slept is credible" (Из надежного правительственного источника поступило сообщение, согласно которому заявление о том, что он спал, заслуживает доверия). Создается впечатление, что словосочетания в этом журнале не являются контекстно-свободными; вместо этого его авторы оценивают допустимую ожидаемую длину предложения и используют полученную оценку в качестве мягкого глобального ограничения на структуру составляемых ими предложений. Такой подход к написанию текста трудно отразить в грамматике PCFG.







Материалы

Яндекс.Метрика