РАСПОЗНАВАНИЕ РЕЧИ

В данном разделе рассматривается одно из наиболее важных приложений вре-меннь/х вероятностных моделей — распознавание речи. Задача состоит в том, чтобы выявить последовательность слов, произнесенных говорящим, используя акустический сигнал. Речь — это доминирующая форма общения людей, и поэтому надежное распознавание речи с помощью машин было бы чрезвычайно полезным. Еще более важной задачей является понимание речи — идентификация смысла фрагментов речи. Но изучение этой темы мы отложим до главы 22.
Речь — это одно из первых проявлений грубого неоткристализовавшегося мира реальных сенсорных данных, с которыми сталкивается человек после своего рождения. Эти данные являются зашумленными, в буквальном смысле слова: в них может присутствовать не только фоновый шум, но и помехи, возникающие в процессе самого преобразования в осознаваемую человеком форму; слова иногда произносятся по-разному, даже одним и тем же говорящим; различные слова могут звучать одинаково и т.д. По этим причинам со временем возникло понимание того, что распознавание речи должно рассматриваться как одна из задач вероятностного вывода.
На наиболее общем уровне эту задачу вероятностного вывода можно определить следующим образом. Предположим, что Words — случайная переменная, пробегающая по всем возможным последовательностям слов, которые могут быть произнесены, а также допустим, что signal — наблюдаемая последовательность акустических сигналов. В таком случае наиболее вероятной интерпретацией фрагмента речи является то значение переменной Words, которое максимизирует вероятность Р (words | signal). Как и во многих других случаях, нам может помочь применение правила Байеса:
Р{words\signal) = а Р(signal\words) Р(words)
Выражение Р( signal \ words) называется акустической моделью. Эта модель описывает звуки слов, например, говорит о том, что слово "ceiling" (потолок) начинается с мягкого звука "с" и звучит так же, как "sealing" (уплотнение). (Слова, звучащие одинаково, часто называют домофонами.) Выражение Р(words) принято называть языковой моделью. Эта модель задает априорную вероятность каждого фрагмента речи, например указывает, что последовательность слов "high ceiling" (высокий потолок) является гораздо более вероятной, чем "high sealing" (высокое уплотнение).
Языковые модели, используемые в системах распознавания речи, обычно являются очень простыми. Модель двухсловных сочетаний, которая будет описана ниже в данном разделе, задает вероятность каждого слова, которое следует за каждым другим словом. Акустическая модель является гораздо более сложной. В ее основе лежит важное открытие, сделанное в области фонологии (науки о звуках устной речи), согласно которому во всех человеческих языках используется ограниченный набор звуков, называемых фонемами, количество которых находится в пределах от 40 до 50. Грубо говоря, фонема — это звук, который соответствует одной гласной или согласной букве, но существуют некоторые сложности; например, некоторые сочетания букв, такие как "th" и "ng", в английском языке соответствуют единственным фонемам, а некоторые буквы произносятся как разные фонемы в различных контекстах (в качестве примера можно указать букву "а" в словах "rat" и "rate"). В табл. 15.1 перечислены фонемы, используемые в английском языке, с примером для каждой из них. Итак, фонема — это наименьший фрагмент звукового сигнала, который имеет различимый смысл для людей, говорящих на конкретном языке. Например, в английском языке фонема "t" в слове "stick" является той же самой, что и фонема "t" в слове "tick", но в тайском языке они различаются как две отдельные фонемы.
Благодаря существованию фонем появляется возможность разделить акустическую модель на две части. Первая часть касается произношения и задает для каждого слова распределение вероятностей по возможным последовательностям фонем. Например, слово "ceiling" произносится как [s iy 1 ih ng]; или иногда как [s iy 1 ix ng], а иногда даже как [s iy 1 en]. Фонемы не являются непосредственно наблюдаемыми, поэтому, грубо говоря, речь может быть представлена как скрытая марковская модель, переменная состояния которой, Xt, определяет, какая фонема произносится в момент времени t.
Вторая часть акустической модели относится к тому способу, с помощью которого фонемы реализуются в виде акустических сигналов. Другими словами, переменная свидетельства Et для скрытой марковской модели задает наблюдаемые характеристики акустического сигнала в момент времени t, а акустическая модель определяет вероятность P(Et\Xt), где Xt — текущая фонема. Эта модель позволяет также учитывать ударение, скорость и громкость речи и основана на методах из области обработки сигналов, позволяющих создавать описания сигналов, которые являются достаточно устойчивыми по отношению ко всем указанным влияниям.
В оставшейся части данного раздела приведено описание указанных моделей и алгоритмов, которое построено от нижнего уровня к верхнему, начиная от акустических сигналов и фонем, проходя через отдельные слова и заканчивая целыми предложениями. В заключение будет показано, как происходит обучение всех этих моделей и насколько хорошо работают результирующие системы.







Материалы

Яндекс.Метрика