ПОНИМАНИЕ РЕЧИ
Речь представляет собой языковой фрагмент произвольной длины, обычно превышающий по длине одно предложение. Как проявления речи рассматриваются учебники, романы, сообщения о погоде и разговоры. До сих пор в этой главе проблемы связной речи в основном игнорировались, поскольку язык проще изучать в лабораторных условиях, разделив речь на отдельные предложения. А в этом разделе предложения рассматриваются в их естественной среде обитания. Он в основном посвящен двум конкретным подзадачам — разрешение ссылок и изучение связной речи.
Разрешение ссылок
Разрешение ссылок представляет собой интерпретацию местоимения или определительного именного словосочетания, которое ссылается на некоторый объект в мире14. Разрешение основано на знаниях о мире и на результатах анализа предыдущих фрагментов речи. Рассмотрим следующий отрывок текста:
Джон помахал официанту. Он заказал бутерброд с ветчиной.
Чтобы понять, что слово "он" во втором предложении относится к Джону, необходимо знать, что в первом предложении упоминаются два человека и что Джон играет роль клиента, поэтому заказ, скорее всего, должен сделать он, а не официант. Обычно разрешение ссылок сводится к выбору референта (адресата ссылки) из списка кандидатов, но иногда эта задача требует создания новых кандидатов. Рассмотрим следующий отрывок текста:
После того как Джон сделал предложение Маше, они нашли священника и поженились. Чтобы отпраздновать медовый месяц, они отправились на Гавайи.
Здесь определительное именное словосочетание "медовый месяц" относится к тому, что лишь неявно следует из ситуации, в которой используется глагол "поженились". Во втором предложении местоимение "они" указывает на группу людей, которая до сих пор еще не была явно обозначена как таковая — Джон и Маша (но не священник).
Выбор наилучшего референта представляет собой процесс устранения неоднозначности, в основе которого лежит использование сочетаний разнообразной синтаксической, семантической и прагматической информации. Некоторые намеки на правильные толкования заданы в форме ограничений. Например, местоимения должны быть согласованы в роде и числе со своими денотатами (словами, которые они заменяют): местоимение "он" может относиться к Джону, но не к Маше; местоимение "они" может относиться к группе, а не к отдельному лицу. Местоимения должны также подчиняться синтаксическим ограничениям, определяющим возвратные зависимости. Например, в предложении: "Он увидел его в зеркале" два местоимения должны ссылаться на разных людей, а в предложении: "Он увидел себя" местоимения должны ссылаться на одно и то же лицо. Существуют также ограничения, касающиеся семантической согласованности. Например, в предложении: "Он съел это" местоимение "он" должно ссылаться на то, что ест, а "это" — на то, что едят.
Некоторыми намеками могут служить предпочтения, которые не всегда соблюдаются. Например, если два смежных предложения имеют параллельную структуру, то предпочтительно иметь местоименные ссылки, в которых также соблюдается эта структура. Поэтому в следующем отрывке текста:
Маша прилетела в Сан-Франциско из Нью-Йорка. Джон прилетел туда из Бостона. Мы предпочитаем такую трактовку, в которой местоимение "туда" ссылается на Сан-Франциско, поскольку оно играет такую же синтаксическую роль. Если же параллельная структура отсутствует, то подлежащие как денотаты получают предпочтение над дополнениями, поэтому в следующем отрывке текста:
Маша дала Салли указания по дому. Затем она ушла.
предпочтительным денотатом для местоимения "она" является "Маша", подлежащее первого предложения. Еще один вариант предпочтения распространяется на сущность, которая в процессе речи выступает наиболее ярко. Рассмотрим следующую пару предложений, отдельно взятую:
Дана уронила чашку на тарелку. Она разбилась.
При этом возникает проблема: не ясно, что является референтом местоимения "она" — чашка или тарелка. Но в более широком контексте эта неоднозначность устраняется:
Дана очень любила синюю чашку. Эта чашка была подарена близким другом. К сожалению, однажды, накрывая на стол. Дана уронила чашку на тарелку. Она разбилась.
В данном случае фокусом внимания является чашка, и поэтому рассматривается как предпочтительный референт.
Был разработан целый ряд алгоритмов разрешения ссылок. Особенно замечательным является один из первых таких алгоритмов, разработанный Хоббсом [662], поскольку он позволил достичь необычно высокой в то время степени статистической достоверности. Хоббс использовал тексты трех разных жанров и сообщил о том, что с помощью этого алгоритма достигнута точность 92%. Условием проведения этих экспериментов должны были стать правильные результаты синтаксического анализа, выработанные синтаксическим анализатором; не имея такового в своем распоряжении, Хоббс составлял деревья синтаксического анализа вручную.
Алгоритм Хоббса действует на основе поиска: в нем осуществляется поиск в предложениях, начиная от текущего предложения и двигаясь в обратном направлении. Такой метод гарантирует, что в первую очередь будут рассматриваться последние по времени определенные кандидаты. Поиск в предложении осуществляется в ширину, слева направо. Это гарантирует, что подлежащие будут рассматриваться перед дополнениями. В алгоритме выбирается самый первый кандидат, который удовлетворяет описанным в этом абзаце ограничениям.