Слова

Каждое слово можно рассматривать как определяющее отдельное распределение вероятностей Р (X1:t \ word), где Xi задает состояние фонемы в i-м фрейме. Как правило, такое распределение делится на две части. Модель произношения задает распределение вероятностей по последовательностям фонем (игнорируя такие измерения, как время и состав фреймов), а модель фонем описывает то, как фонемы отображаются в последовательность фреймов.
Рассмотрим слово "tomato" (помидор). Согласно Гершвину [546], допустимыми являются варианты произношения этого слова [t ow m ey t ow] и [t ow m aa t ow]. На рис. 15.15, сверху показана модель перехода, в которой учитываются эти варианты. В данной модели имеются два возможных пути, один из которых соответствует последовательности фонем [t ow m ey t ow], а другой — последовательности [t ow m aa t ow]. Вероятность любого из этих путей равна произведению вероятностей дуг, из которых состоит этот путь, как показано ниже.

Р{[towmeytow] |"tomato") = Р([towmaatow] |"tomato") = 0.5
Вторым источником фонетических вариаций является коартикуляция. Например, фонема [t] формируется, когда язык находится в верхней части ротовой полости, а при произнесении фонемы [ow] язык должен находиться в нижней части. Во время быстрой речи язык часто оказывается в промежуточном положении и поэтому произносятся фонемы [t ah], а не [t ow]. На рис. 15.15, снизу приведена более сложная модель произношения слова "tomato", в которой принят в расчет этот коар-тикуляционный эффект. В данной модели имеются четыре отдельных пути, поэтому вероятности становятся таковыми:
Р{ [ towmeytow] | " tomato") = Р ([ towmaa tow] | " tomato") = 0.1 Р{ [ tahmeytow] | " tomato") = Р ([ tahmaa tow] j " tomato") = 0.4
Аналогичные модели могут быть составлены для каждого слова, которое мы хотим распознать.
Модель для фонемы с тремя состояниями показана в виде диаграммы перехода между состояниями на рис. 15.16. Эта модель относится только к одной конкретной фонеме, [т], но все фонемы должны иметь модели с аналогичной топологией. Для каждого состояния фонемы показана связанная с ней акустическая модель, в которой принято предположение, что соответствующий акустический сигнал представлен меткой VQ. Например, согласно этой модели, P(Et=C1\xt=[m]0nset) = 0.5. Обратите внимание на то, что на данном рисунке показаны петли; например, состояние [m]Mid сохраняется с вероятностью 0.9, а это означает, что состояние [m]Mid имеет ожидаемую продолжительность 10 фреймов. В рассматриваемой модели продолжительность каждой фонемы является независимой от продолжительности других фонем; в более сложной модели могут проводиться различия между быстрой и медленной речью.
Аналогичные модели можно составить для каждой фонемы, возможно, с учетом трехфонемного контекста. Модель каждого слова, в сочетании с моделями его фонем, задает полную спецификацию некоторой скрытой марковской модели, которая, в свою очередь, определяет вероятности перехода между состояниями фонем от фрейма к фрейму, а также вероятности акустических характеристик для каждого состояния фонем.
Если требуется распознавать отдельные слова (т.е. слова, произнесенные без какого-либо окружающего контекста и с четкими границами), то необходимо найти слово, которое максимизирует следующее выражение:
P(word\ ei:t) = ос P(ei:t\word) P(word)
Априорную вероятность P{word) можно получить по результатам обработки фактических речевых данных, a P(e1:t| word) представляет собой правдоподобие последовательности акустических характеристик, соответствующих модели рассматриваемого слова word. Вопросу о том, как вычисляются такие значения правдоподобия, посвящен раздел 15.2; в частности, в уравнении 15.5 определен простой метод рекурсивного вычисления, стоимость которого линейно зависит от t и от количества состояний марковской цепи. Чтобы найти наиболее вероятное слово, можно выполнить это вычисление для каждой возможной модели слова, умножить полученное значение на априорную вероятность и в соответствии с этим выбрать наиболее подходящее слово.







Материалы

Яндекс.Метрика