Определение с помощью обучения вероятностей для машинного перевода

Выше была кратко описана модель для Р ( F\ Е), которая предусматривает применение четырех перечисленных ниже множеств параметров.
• Языковая модель, p (wordL \ word).
• Модель фертильности. P{Fertility=n \ word?).
• Модель выбора слова. Р (wordE | wordF).
• Модель смещения. P(Offset=o\pos, lenE, lenF).
Но даже при использовании скромного словаря, состоящего из 1000 слов, для этой модели требуются миллионы параметров. Очевидно, что необходимо обеспечить определение этих параметров с помощью обучения на основе данных. Предположим, что единственными доступными данными является двуязычная совокупность текстов. Ниже описан способ использования этих данных.
• Сегментация на предложения. Единицей перевода является предложение, поэтому нам потребуется разбить совокупность текстов на предложения. Надежным показателем конца предложения является точка, но в таком фрагменте текста, как "Dr. J. R. Smith of Rodeo Dr. arrived.", признаком конца предложения является только последняя точка. Сегментация на предложения может быть выполнена с точностью около 98%.
• Оценка языковой модели для французского языка P{wordi \ word). Рассматривая только французскую половину совокупности текстов, подсчитать частоты пар слов и выполнить выравнивание, чтобы получить оценку Р( wordL \ word). Например, может быть получено значение Р( "Eiffel" | "tour") = .02.
• Выравнивание предложений. Для каждого предложения в английской версии определить, какое предложение (предложения) соответствует ему во французской версии. Обычно следующее предложение в английском тексте соответствует следующему предложению во французском тексте в форме согласования "один к одному", но иногда возникают другие варианты: одно предложение на одном из языков может быть разбито на два, что приводит к согласованию "два к одному", или может быть изменен на противоположный порядок следования двух предложений, а это приведет к согласованию "два к двум". Выравнивание предложений ("один к одному", "один к двум" или "два к двум" и т.д.) может быть обеспечено только на основании сравнения длины предложений с точностью в пределах от 90 до 99% с использованием одного из вариантов алгоритма сегментации Витерби (см. листинг 23.1). С применением отметок, общих для обоих языков, таких как числа или имена собственные, а также слов, которые, как известно, имеют в двуязычном словаре однозначный перевод, можно добиться еще лучшего выравнивания.
Теперь можно приступить к оценке параметров модели перевода. Такую задачу можно решить, приняв довольно слабое начальное предположение, а затем постепенно его улучшая, как описано ниже.
• Оценка начальной модели фертильности P{Fertili ty=n\ wordF). Найдя французское предложение длины т, которое выравнивается с английским предложением длины л, будем рассматривать его как свидетельство того, что каждое французское слово имеет фертильность п/т. Рассмотрим все свидетельства во всех предложениях, чтобы получить распределение вероятностей фертильности для каждого слова.
• Оценка начальной модели выбора слова P{wordE\wordF). Рассмотрим все французские предложения, которые содержат, скажем, слова "brun". Слова, которые появляются наиболее часто в английских предложениях, выравниваемых с этими предложениями, являются наиболее вероятными буквальными переводами слова "brun".
• Оценка начальной модели смещения P{Offset=o |pos, lenEl lenF). Теперь, после получения модели выбора слова, воспользуемся ею, чтобы получить оценку модели смещения. Для каждого английского предложения длины п, которая выравнивается с французским предложением длины т, проанализировать каждое французское слово в предложении (в позиции i) и каждое английское слово в предложении (в позиции j), которое является наиболее вероятным вариантом выбора для французского слова, и рассматривать его как свидетельство для вероятности P{Offset=i-j | i, п, т).
• Усовершенствование всех оценок. Воспользоваться алгоритмом ЕМ (expectation-maximization — ожидание-максимизация), чтобы усовершенствовать оценки. Скрытой переменной является вектор выравнивания слов между парами предложений, выровненными по предложениям. Этот вектор указывает для каждого английского слова позицию соответствующего французского слова во французском предложении. Например, может быть получено следующее:
Исходный французский текст: Le chien brun n' est pas alle a la maison
Целевой английский текст: The brown dog did not go home
Вектор выравнивания слов: 13 2 5 4 7 10
Вначале с использованием текущих оценок параметров создадим вектор выравнивания слов для каждой пары предложений. Это позволит нам получать лучшие оценки. Модель фертильности оценивается путем подсчета того, сколько раз один из элементов вектора выравнивания слов указывает на несколько слов или на нулевое количество слов. После этого в модели выбора слов могут рассматриваться только те слова, которые выровнены друг с другом, а не все слова в предложения, тогда как в модели смещений может рассматриваться каждая позиция в предложении для определения того, насколько часто она смещается в соответствии с вектором выравнивания слов. К сожалению, точно не известно, каковым является правильное выравнивание, а количество вариантов выравнивания слишком велико для того, чтобы перебрать их все. Поэтому мы вынуждены осуществлять поиск выравниваний с высокой вероятностью и взвешивать их по их вероятностям, собирая свидетельства для новых оценок параметров. Это все, что требуется для алгоритма ЕМ. На основании начальных параметров вычисляются выравнивания, а с помощью выравниваний уточняются оценки параметров. Такая процедура повторяется до полной сходимости.
Основные положения, изложенные в этой главы, перечислены ниже.
• Вероятностные языковые модели, основанные на л-элементных сочетаниях, позволяют получить весьма значительный объем информации о языке.
• Контекстно-свободные грамматики (Context-Free Grammar — CFG) могут быть расширены до вероятностных контекстно-свободных грамматик, которые позволяют проще определять их параметры с помощью обучения из имеющихся данных, а также легче решать задачу устранения неоднозначности.
• В системах информационного поиска используется очень простая языковая модель, основанная на обработке мультимножеств слов, но даже эта модель позволяет достичь высоких показателей полноты и точности на очень больших совокупностях текстов.
• В системах извлечения информации используется более сложная модель, которая включает простейшие синтаксические и семантические конструкции. Для реализации таких систем часто применяются каскады конечных автоматов.
• В практически применяемых системах машинного перевода используется целый ряд методов, начиная от полного синтаксического и семантического анализа и заканчивая статистическими методами, основанными на учете частот слов.
РЕЗЮМЕ
• При формировании статистической языковой системы лучше всего опереться на модель, позволяющую эффективно использовать имеющиеся данные, даже если эта модель кажется чрезмерно упрощенной.







Материалы

Яндекс.Метрика