Смекни!
smekni.com

Вокодеры с линейным предсказанием (стр. 7 из 9)

- с возбуждением от импульсов основного тона- LPC (LinearPredictiveCoding);

- многоимпульснымвозбуждениемMPELP (Multi Pulse Excited Linear Predictive) илиMPLPC (Multi Pulse Excited LPC);

- возбуждениемотостаткапредвидения RELP (Residual Excited Linear Predictive);

- возбуждениемоткодаСELP (Code Excited Linear Predictive).

В кодере LPC сигнал возбуждения передается при помощи трех параметров: периода основного тона (Тот) для звуков, которые вокализованы; сигнала тон-шум (характеризующего наличие в данный момент его параметров или тона, или шума) и амплитуды сигнала.

Кодер с возбуждением от частоты основного тона (ЧОТ) - это кодер LPC, который используется для передачи параметров речевого сигнала со скоростью 2400 бит/с и ниже.
Кодер с возбуждением от ЧОТ не обеспечивает необходимого качества синтезированной речи даже при высокой скорости передачи. Не для всех звуков удается получить точное разделение речи на вокализованную и невокализованную.

Известно, что кроме ЧОТ основного возбуждения, которое имеет место при смыкании голосовой щели, имеется вторичное возбуждение, которое имеется не только при размыкании голосовой щели, но и при смыкании.

В многоимпульсном возбуждении сигнал остатка LPC представляется в виде последовательности импульсов с неравномерно распределенными интервалами и с различными амплитудами (приблизительно 8 импульсов за 10 мс).

Информация о положениях и амплитудах импульсов возбуждения вместе с LPC-параметрами в каждом кадре формируется кодером.

Если используется скорость до10 параметров LPC 1,8 кбит/с (36 бит кадров20 мс), то при скоростях передачи 16 и 9,6 кбит/с на передачу параметров сигнала возбуждения отводятся скорости соответственно 14,2 и 7,8 кбит/с. На скорости 16 кбит/с и даже ниже создается высококачественная синтезированная речь. При скоростях 16 и 9,6 кбит/с синтезированная речь отвечает по качеству ИКМ сигналам (с логарифмическим компандированием) со скоростями передачи 56 и 52 кбит/с.

На скорости 4,8 кбит/с на прием передаются параметры LPC и кроскореляционная функция. Автокореляционная функция воспроизводится с параметров LPC, которые принимаются, после чего определяются положения и амплитуды импульсов возбуждения. Качество синтезированной речи при многоимпульсном возбуждении при скорости передачи 4,8 кбит/с заметно выше, чем при одноимпульсном возбуждении при той самой скорости передачи.

Кодер с линейным предсказанием, в котором в качестве сигнала возбуждения может использоваться остаток предсказания, называется RELP кодером. Остаток предсказания пропускается через ФНЧ с частотой среза 800 Гц при передаче на скорости 9,6 кбит/с и 600 Гц на скорости 4,8 кбит/с. В первом случае сигнал остатка дискретизируется с частотой 7,2 кбит/с и с той же частотой передается. Остаток 9,6-7,2 = 2,4 кбит/с используются для передачи коэффициентов предсказания и усиления. Во втором случае, т.е. при скорости передачи 4,8 сигнал остатка дискретизируется на частоте 2,4 кбит/с и с этой же скоростью передается. Остаток 2,4 кбит/с используются так же, как и в первом случае.

В декодере сигнал возбуждения восстанавливается во всей полосе частот. При этом верхняя половина возобновленного спектра возбуждения становится зеркальным отображением нижней половины.

Сигнал остатка для RELP-кодера может формироваться и во время декодирования. Дело в том, что для передачи этого сигнала нужна достаточно высокая скорость, являющаяся неприемлемой для кодеров LPC, скорость передачи каких 2,4 кбит/с, поэтому необходимо создавать сигнал остатка на прием сигнала ЧОТ.
Сигнал остатка не обладает амплитудным спектром, а имеет те же самые резонансные области, что и реальный речевой сигнал. Именно поэтому сигнал остатка обладает высокой разборчивостью. Амплитуды формант на выходе синтезирующего фильтра LPC часто бывают меньше амплитуд формант в реальном речевом сигнале. Случается это в результате квантирования параметров LPC.

В линейном предсказателе с возбуждением от кода СELP (Code Excited Linear Predictive) сигнал возбуждения представляется в виде вектора, которому присваивается определенный индекс, т.е. код.

Выбор оптимального вектора осуществляется с большого множества векторов-кандидатов, которые составляют кодовую книгу. Определение размера кодовой книги возбуждения имеет определяющее значение для создания необходимого качества восстановления синтезированного языка.

Метод линейного предсказания с кодовым возбуждением обеспечивает высокое качество речевого сигнала при скоростях передачи 4…16 кбит/с.

Данный класс речевых кодеров занимает промежуточное место между кодерами формы сигнала и параметрическими вокодерами. Анализ параметров речи осуществляется на интервалах 10-30 мс, что позволяет эффективно применять CELP при скоростях передачи от 4 до 16 Кбит/c. Как видно из структурной схемы кодера CELP (рис. 8), вместо кодирования сигналов отсчет за отсчетом кодером разностного сигнала применяется "кодовая книга возбуждения". В этом случае каждому разностному сигналу сопоставляется строка (шаблон) сигналов. Эта строка содержит набор отсчетов, соответствующих передаваемой остаточной последовательности на основе полученного значения ошибки. На приемном конце вместо декодера разностного сигнала также применяется "кодовая книга возбуждения".

Существует большое число разновидностей кодовых книг, которые классифицируются:

1. по принципу поиска кодов векторов (с полным перебором, двоичный или последовательный поиск и т.п.);

2. по способам обучения (Фиксированная или адаптируемая книга);

3. по виду хранимой информации (выборки речи или реализация шума).

Алгоритм CELP позволяет воспроизводить речь с высоким качеством. Средняя экспертная оценка: 3,5—3,5. Однако он требует больших вычислительных ресурсов, поэтому на его основе построено много разновидностей кодеров. По отношению к многоимпульсному методу CELP-метод достигает более высоких показателей восстановления речи при одинаковых скоростях.


Рис. 8. Структурная схема кодера CELP

В США приняты два федеральных стандарта на применение CELP:

- 1015 (LPC-10E, 2400 бит/с);

- 1016 (E-CELP, 4800 бит/с).

ITU (Международный союз электросвязи, МСЭ) разработал рекомендации:

- G.728 на алгоритм LD-CELP (16 кбит/с);

- G.729 на алгоритм CS-ACELP (8 кбит/с).

Характеристики некоторых основных алгоритмов кодирования речи приведены в табл.1.

Таблица 1. Основные характеристики наиболее известных типов вокодеров

Название алгоритма Рекомендация Скорость алгоритма (кбит/с)

Размер речевого кадра

(октетов)

Задержка накопления (мс)
CS-ACELP ITU G.729 8 10 10
PCM ITU G.711 64 40 5
56 35 5
48 30 5
ADPCM ITU G.726 40 25 5
32 20 5
24 15 5
16 10 5
LD-CELP ITU G.728 16 10 5
MP-MLQ ITU G.723.1 6.3 24 30
ACELP ITU G.723.1 5.3 20 30

Важной характеристикой любого вокодера является качество воспроизводимой речи. Для того, чтобы оценить это качество, было введено понятие средней субъективной оценки (MOS - mean opinion score) или психологической реакции человека на воспроизводимую речь.

Оценка по шкале MOS определяется путем обработки оценок, даваемых группами слушателей. В табл. 2 приведены оценки MOS для различных методов кодирования.

Таблица 2. Показатели MOS основных алгоритмов кодирования речи

Название алгоритма MOS
G.711 (PCM; 64 кбит/c) 4,1
G.726 (ADPCM; 32 кбит/c) 3,8
G.728 (LD-CELP; 16 кбит/c) 3,6
G.723.1 (ACELP; 5,3 кбит/c) 3,7
G.723.1 (MP-MLQ; 6,3 кбит/c) 3,9

Наиболее предпочтительным среди приведенных методов кодирования с точки зрения соотношения качество речи / скорость потока является алгоритм G.723.1.

Глава 5: Кодеки.

Рассмотрим теперь более широкое понятие – кодеки. Кодек (англ. codec, от coder/decoder — кодировщик/декодировщик или compressor/decompressor) — это устройство или программа, способная выполнять преобразование данных или сигнала. Специальные голосовые кодеки как раз и используют вокодерные принципы. Данная глава будет несколько дублировать прошлую, однако ее рассмотрение необходимо с целью понимания общей системы кодеков.

Эффективность использования пропускной способности IP-сети существенным образом зависит от выбора оптимального алгоритма кодирования/декодирования речевой информации – кодека.

Все существующие типы речевых кодеков по принципу действия можно разделить на три группы:

· Кодеки с импульсно-кодовой модуляцией (ИКМ) и адаптивной дифференциальной импульсно-кодовой модуляцией (АДИКМ), появившиеся в конце 50-х годов и использующиеся сегодня в системах традиционной телефонии. В большинстве случаев они представляют собой сочетание АЦП/ЦАП.

· Кодеки с вокодерным преобразованием речевого сигнала возникли в системах мобильной связи для снижения требований к пропускной способности радио тракта. Эта группа кодеков использует гармонический синтез сигнала на основании информации о его вокальных составляющих - фонемах. В большинстве случаев, такие кодеки реализованы как аналоговые устройства.

· Комбинированные (гибридные) кодеки сочетают в себе технологию вокодерного преобразования/синтеза речи (преобразование речевого сигнала в цифровой поток со скоростью от 1,2 до 4,8 Кбит/с), но оперируют уже с цифровым сигналом посредством специализированных цифровых сигнальных процессоров (Digital Signal Processor, DSP).

Кодеки этого типа содержат в себе ИКМ или АДИКМ кодек и реализованный цифровым способом вокодер.