Звуки речи

Звуковые волны представляют собой периодические изменения давления, которые распространяются через воздух. Звук может быть измерен микрофоном, диафрагма которого смещается под воздействием изменений давления и вырабатывает непрерывно изменяющийся ток. Аналогово-цифровой преобразователь измеряет величину тока (которая соответствует текущей амплитуде звуковой волны) через дискретные интервалы, определяемые частотой дискретизации. Для обработки речи, как правило, применяется частота дискретизации от 8 до 16 кГц (т.е. от 8 до 16 тысяч раз в секунду). (Дискретизация высококачественных музыкальных записей осуществляется с частотой 44 кГц или больше.) Точность каждого измерения определяется коэффициентом квантования; в системах распознавания речи обычно применяется от 8 до 12 битов. Это означает, что в системах низкого класса дискретизация происходит с частотой 8 кГц и с квантованием 8 битами, а это требует для передачи фрагмента речи, занимающего одну минуту, примерно половины мегабайта. Было бы практически невозможно создавать и манипулировать распределениями вероятностей Р{ signal \ phone) с таким большим объемом воспринимаемой информации, поэтому необходимо разработать более краткие описания акустического сигнала.
Прежде всего необходимо отметить следующее: хотя звуковые частоты в речи могут достигать нескольких килогерц, изменения в содержимом этого сигнала происходят гораздо менее часто, возможно, с частотой не больше 100 Гц. Поэтому в системах распознавания речи суммируются свойства сигнала за более продолжительные интервалы, называемые фреймами. Длина фрейма равна приблизительно 10 миллисекундам (т.е. соответствует 80 выборкам на частоте 8 кГц); это означает, что она достаточно мала, чтобы обеспечить исключение с помощью процесса суммирования некоторых помех, отличающихся меньшей продолжительностью. В пределах каждого фрейма происходящее в нем представляется с помощью вектора акустических характеристик. Например, во фрейме можно охарактеризовать количество энергии в каждом из нескольких частотных диапазонов. К другим важным характеристикам относится общее количество энергии во фрейме и его отличие от предыдущего фрейма. Извлечение характеристик из речевого сигнала можно сравнить с прослушиванием выступления оркестра и определением того, что "теперь валторны звучат громко, а скрипки — тихо". На рис. 15.14 показано, как происходят преобразования из непосредственно измеряемого звука в последовательность фреймов. Обратите внимание на то, что фреймы перекрываются; это позволяет предотвратить потерю информации, которая могла бы произойти, если бы важное акустическое событие случайно совпало с границей одного из фреймов.
В данном случае показаны фреймы только с тремя характеристиками. В реальных системах используются десятки или даже сотни характеристик. Если применяется п характеристик и каждая из них имеет, скажем, 256 возможных значений, то любой фрейм представляется в виде точки в n-мерном пространстве и существует 2 5бп возможных фреймов. При п>2 была бы практически неосуществимой попытка представить распределение вероятностей Р( features | phone) в виде явно заданной таблицы, поэтому требуется дальнейшее сжатие. Ниже описаны два возможных подхода к решению этой задачи.
• В методе векторного квантования, или сокращенно VQ (Vector Quantization), все n-мерное пространство подразделяется, допустим, на 256 областей, обозначенных метками от С1 до С256. В таком случае появляется возможность представить каждый фрейм с помощью одной метки, а не вектора из п чисел. Поэтому в табулированном распределении Р(VQ\phone) имеется 256 вероятностей, заданных для каждой фонемы. Но метод векторного квантования больше не находит широкого применения в крупномасштабных системах.
• Вместо дискретизации пространства характеристик для описания распределения Р{ features\phone) может использоваться параметризованное непрерывное распределение. Например, для каждой фонемы может применяться гауссово распределение с различным средними и матрицами ковариации. Такой метод становится приемлемым, если акустические реализации каждой фонемы кластеризованы в отдельной области пространства характеристик. Но на практике звуки могут распределяться по некоторым областям, поэтому приходится использовать сочетание гауссовых распределений. Такое сочетание представляет собой взвешенную сумму к отдельных распределений, поэтому в распределении Р( features \ phone) имеется к весов, к векторов средних с размером п и к матриц ковариации с размером л2, т.е. для представления каждой фонемы применяется О (кп2) параметров.
Очевидно, что при переходе от полного речевого сигнала к метке VQ или к множеству параметров сочетания распределений некоторая информация теряется. Весь секрет успешной обработки сигналов заключается в том, что характеристики и области (или гауссовы распределения) должны быть выбраны так, чтобы потери полезной информации свелись к минимуму. Любой конкретный звук речи может быть произнесен с помощью слишком многих способов: громко или тихо, быстро или медленно, с высоким или низким ударением, на фоне тишины или шума, а также любым из миллионов разных говорящих людей, каждый из которых имеет свой акцент и обладает разными характеристиками речевого тракта. Обработка сигналов должна осуществляться таким образом, чтобы были устранены все эти вариации и вместе с тем сохранилось то общее, чем характеризуется воспринимаемый звук5.
В простую модель, описанную выше, необходимо внести еще два уточнения. Первое из них относится к временной структуре фонем. При обычной речи большинство фонем имеет продолжительность 50—100 миллисекунд, т.е. фонемы занимают 5—10 фреймов. Для всех этих фреймов вероятностная модель Р(features \ phone) является одинаковой, тогда как большинство фонем обладает ярко выраженной внутренней структурой. Например, фонема [t] представляет собой одну из нескольких взрывных согласных, при произнесении которых поток воздуха прерывается на короткое время, после чего резко освобождается. Изучая акустический сигнал, можно обнаружить, что фонема [t] имеет тихое начало, небольшой взрыв в середине и (обычно) шипение в конце. Эта внутренняя структура фонем может быть описана с помощью модели фонемы с тремя состояниями; каждая фонема имеет состояние Onset (Вступление), Mid (Середина) и End (Конец), а каждое состояние имеет свое собственное распределение среди вероятностей характеристик.
Второе уточнение касается контекста, в котором произносится фонема. Звучание каждой конкретной фонемы может изменяться под влиянием окружающих фонем6. Напомним, что звуки речи вырабатываются в результате движения губ, языка и нижней челюсти и проталкивания воздуха через голосовой тракт. Для координации этих сложных движений на скорости в пять или больше фонем в секунду мозг инициирует действия, относящиеся ко второй фонеме, еще до того, как оканчивается произнесение первой, что приводит к модификации одной или обеих фонем. Например, при произнесении слова "sweet" (сладкий) губы округляются еще во время произнесения фонемы [s] в предвидении того, что за ней последует фонема [w]. Такие коартикуляционные эффекты частично охватываются трехфонемной моделью, в которой в рамках акустической модели обеспечивается учет зависимости каждой фонемы от предшествующей и последующей фонем. Поэтому фонема [w] в слове "sweet" записывается как [w(s,iy)], т.е. как [w] с левым контекстом [s] и правым контекстом [ iy ].
Результатом совместного применения модели трех состояний и трехфонемной модели становится увеличение количества возможных состояний временного процесса с п фонем первоначального фонетического алфавита (л~5 0 в случае ARPAbet) до Зп3. Но опыт показывает, что при этом достигается повышение точности, которое сторицей окупает дополнительные затраты на вероятностный вывод и обучение.







Материалы

Яндекс.Метрика