Смекни!
smekni.com

Вокодеры с линейным предсказанием (стр. 5 из 9)

Это уравнение второго порядка может быть решено относитель­но g. Приведем алгоритм вычисления отклика синтезирующего фильтра прямой формы.

1.Вычислить выходной сигнал фильтра q(n) при n=0, 1, ..., М—1 в отсутствие возбуждения (используя только данные из памяти о предшествующем периоде) и без обновления коэффици­ентов фильтра.

2. Вычислить выходной сигнал фильтра и(п) при n=0, 1, 1, ..., N—1 по сигналу возбуждения {е(п)}, а память фильтра обнулить.

3. Вычислить коэффициенты уравнения второго порядка отно­сительно gи решить его:

___________ ______________ _____ _____

g2u2(n) + 2gq(n)u(n) + q2(n) – s2(n) = 0

4. Предполагая, что gдействительно и неотрицательно, опре­делить выходной сигнал синтезатора в соответствии с выраже­нием

s(n) = q(n) + gu(n) при n = 0, 1, .... N—1.

5. Записать в память фильтра прямой формы значения

s(N1), s(N—2),..., s(NM).

Вернемся к третьему шагу. Если s2(n)>q2(n), то корни квад­ратного уравнения будут иметь противоположные знаки и, сле­довательно, всегда будет положительный действительный корень. Это условие выполняется, когда истинная энергия больше, чем энергия затухающего переходного процесса. Если это условие не удовлетворяется, что может случиться с сигналом, амплитуда ко­торого уменьшается, то необходимо, чтобы

___________ _____

q(n)u(n) / u2(n) было отрицательным и, кроме того,

При отсутствии действительных положительных корней мо­дель не имеет физического смысла. Если решения не существует, то Атал и Ханауэр предложили устанавливать g=0. Такая про­цедура требует моделирования работы синтезирующего фильтра дважды, в дополнение к трем суммам по N отсчетов и решению квадратного уравнения. Передаваемый коэффициент усиления а определяется по формуле a2=s2(n). Алгоритм, описанный выше, затем полностью реализуется в приемнике.

Такой подход можно распространить и на другие структуры синтезирующих фильтров. При этом необходимо осуществлять дополнительные вычисления при преобразовании значений задер­жанной синтезированной речи в сигналы, содержащиеся в эле­ментах памяти фильтров. Изменение алгоритма при использова­нии предыскажения заключается в замене коэффициентов A(z) коэффициентами A(z)—(1—μz-1), где (1— μz-1) определяет ха­рактеристику предыскажающего фильтра.

Несколько более простой (и менее точный) метод заключает­ся в возбуждении синтезирующего фильтра входной последова­тельностью {е(п)}, чтобы вычислить и(п), где и(п) теперь содер­жит отклик как от предшествующего сегмента, так и от текуще­го сигнала возбуждения

Поскольку в указанных методах непосредственно согласуется энергия сигналов на входе и выходе, то можно ожидать точного согласования огибающих исходной и синтезированной речи. Од­нако необходимо тщательно следить за тем, чтобы величина раз­рывов непрерывности была минимальна, поскольку на коэффи­циенты усиления в конце одного периода ОТ и начале следующе­го не накладывается никаких энергетических ограничений, кроме косвенных.

Глава 3: Виды липредеров на примере устройств с низкой скоростью передачи информации..

Одним из возможных и наиболее важных применений линей­ного предсказания является низкоскоростная (2400—3600 бит/с) надежная передача речи по телефонным каналам. Так как одноканальная высококачественная передача речи требует скорости от 40 000 до 200 000 бит/с, очевидно, что некоторые характерис­тики речи должны быть учтены в модели, в то время как другие могут быть исключены с целью уменьшения скорости передачи информации более чем на порядок. Важно понимать все обстоя­тельства, связанные с этим соображением, чтобы отчетливо пред­ставлять возможности и ограничения вокодерных систем с линей­ными предсказаниями. Некоторые из этих моментов далее будут рассмотрены.

На каждом сегменте необходимо максимально точно оцени­вать сигнал ОТ (отсутствие вокализованности означает, что Р=0). Эта оценка представляет собой единственный параметр, который обеспечивает наибольшее снижение скорости передачи информации. Если она достаточно точна, то натуральность зву­чания синтезированной речи снижается незначительно. Однако точное оценивание предполагает, что посторонние шумы должны быть сведены к минимуму. Музыка, лай собак или внятные поме­хи от разговоров других абонентов приведут к значительному ухудшению точности оценивания сигнала ОТ. Кроме того, диа­пазон изменения частоты основного тона оказывается ограничен­ным. Его величина зависит от сложности алгоритма выделе­ния ОТ.

Обычно в процессе выделения ОТ каждый сегмент классифи­цируется как полностью вокализованный (тон V=1) или как полностью невокализованный шум (V=0). Очевидно, существу­ют звуки, которые следовало бы рассматривать как промежуточ­ные, например /v/ в слове thieves. Применение бинарного прави­ла классификации обусловлено практическими соображениями. Трудно автоматически установить правильное соотношение меж­ду периодической и шумовой компонентами, да и качество синте­за при этом часто ухудшается ненамного.

Если не применяется схема с переменной скоростью передачи информации, при которой учитываются паузы и другие свойства речи, то скорость не может быть уменьшена ниже 1200 — 1400 бит/с. Системы с постоянной скоростью передачи (с синхронной передачей), описываемые в этом параграфе, могут сохранять высокое качество синтеза (при отсутствии операций кодирова­ния, квантования или вычислений с конечной длиной слова) при­близительно до 3300 бит/с, обеспечивая, по существу, незначи­тельное ухудшение качества восприятия. Приблизительно от 1400 до 3300 бит/с ухудшение качества может изменяться от незначи­тельного до существенного, в зависимости от отдельных звуков речи и характерных особенностей говорящего. Ниже 1400 бит/с качество речи значительно ухудшается.

В этой части представлены примеры фраз, переданных по вокодерным системам. Существуют различные виды ЛПС вокодеров – вокодеры на основе метода максимального правдоподобия и частных корреляции, вокодеры на основе автокорелляционного метода и вокодеры на основе ковариационного метода. Для понимания ниже разберем более подробно последние.

3.1. Липредеры на основе ковариационного метода.

Одними из видов липредеров с низкой скоростью передачи являются липредеры на основе ковариационного метода. Атал и Ханауэр вработах и впервые представили результаты анализа-синтеза на основе ковариационного метода линейного предсказания. К статье была приложена звукозапись, чтобы продемонстрировать качество синтеза, полученное при раз­личных информационных скоростях. Исходная речь была записа­на при большом отношении сигнал/шум, пропущена через НЧ фильтр с частотой среза 5 кГц, а затем дискретизирована с час­тотой f= 10 кГц. Сегмент анализа устанавливался равным одно­му периоду Р основного тона для вокализованных участков и ' 10 мс для невокализованных. Коэффициенты предсказания {а*} рассчитывались на основековариационного метода, причем N=Pfs- Коэффициент усиления а вычислялся с помощью первой из процедур, описанных выше, так что энергия речи на каждом синтезируемом сегменте согласовывалась с энергией сиг­нала на соответствующем анализируемом сегменте. Выделение ОТ выполнялось на основе автокорреляционного анализа сиг­нала, полученного путем фильтрации исходной речи и возведения в куб для подчеркивания участков речевого колебания с большой амплитудой .

Для проверки на устойчивость фильтра с характеристикой 1/A(z) на анализируемом сегменте применялась процедура по­шагового понижения порядка. Если фильтр неустойчив, то корни функции получались по программе нахождения корней полинома. Пусть функции

М

A(z) = П (1- zm*z-1)

m=1

опиcывают полиномиальную характеристику фильтра. Если корни zmлежат вне единичной окружности, т. е. |zm|>1, то заменим zmна z*m/|zm|2. Такая замена гарантирует, что форма спектра ос­танется неизменной, хотя исходный критерий минимизации уже не удовлетворяется.

Полином, все корни которого лежат внутри единичной окруж­ности, может быть тогда составлен рекурсивно

A’m(z) = A’m-1(z)*(1-zmz-1)

при m=1, 2, ..., М, причем AM'(z) заменяет полином A(z). Отме­тим, что корень обычно оказывается комплексным. Полученные в результате такого преобразования коэффициентов фильтра пара­метры кодировались и квантовались двумя различными способа­ми: (1) частота и ширина полос корней zmна сегменте в целом кодировались 60 двоичными единицами (в предположении, что М=\2)\ 2) площади акустической трубы Amкодиро­вались 60 двоичными единицами. Оба этих способа гарантируют устойчивость фильтра синтезатора, даже если применяется ли­нейная интерполяция. Другими передаваемыми параметрами бы­ли период Р основного тона, признак вокализованности «тон-шум» (V/UV) и коэффициент усиления, которые кодировались соответственно шестью, одной и пятью двоичными единицами. По­этому скорость передачи составляла Br=fr*(6+1+5+60) =72*fr,.. Так как использовались частоты сегментов, равные 100, 67 и 33 Гц, то результирующие скорости составляли 7200, 4800 и 2400 бит/с соответственно.