Смекни!
smekni.com

Гомоморфная обработка речи (стр. 3 из 3)

Другая причина, по которой сигнал может сильно отличаться от описываемого моделью, заключается в чрезмерном ограничении полосы. Ярким примером подобной неадекватности может служить синусоидальный сигнал. В логарифме спектра такой сигнал даст только один пик. Поскольку в спектре нет периодических колебаний, в кепстре не будет пиков. В речевом сигнале вокализованные сегменты обычно очень узкополосны с плохо выра­женной гармонической структурой на частотах выше нескольких сотен герц. В этом случае пики в кепстре отсутствуют. К счастью, для любых значений периода, за исключением самых коротких, область, в которой возникают пики в кепстре, не содержит других компонент, кроме основного тона. Таким образом, для определения положения импульса основного тона можно использовать достаточно низкий порог (порядка 0,1).

При правильно подобранной протяженности окна на входе положение и амплитуда импульса кепстра обеспечивают в большинстве случаев хорошую оценку периода основного тона и классификации тон/шум. В тех случаях, когда кепстральный анализ не позволяет точно ответить на вопрос о наличии импульсов основного тона и значении периода, для вынесения окончательного решения можно привлечь дополнительную информацию о виде функции среднего числа переходов через нуль, энергии сигнала.

4. Гомоморфный вокодер

Гомоморфная обработка речевого сигнала приводит к весьма удобному описанию, где основные параметры сигнала отделены друг от друга, т. е. информация о сигнале возбуждения расположена в области больших времен, а информация о речевом тракте и форме импульса возбуждения – в области малых времен кепстра. Зависящий от времени комплексный спектр фактически содержит ту же информацию, что и текущий спектр сигнала, который, в свою очередь, является точным описанием речевого сигнала. Кепстральное представление, однако, не использует информации о фазе сигнала, содержащейся в преобразовании Фурье, и поэтому кратковременный кепстр не позволяет единственным образом описать речевое колебание. Тем не менее на основе кепстра можно оценить формантные-частоты, период основного тона и классифицировать сигнал как вокализованный или невокализованный. Кепстр используется также для непосредственного описания речи в системах, называемых гомоморфными вокодерами.

В гомоморфном вокодере кепстр вычисляется 1 раз через каждые 10 –20 мс. Период основного тона и признак тон/шум оцениваются по кепстру, а компоненты кепстра в области малых времен (примерно первые 30 отсчетов) квантуются и кодируются для передачи или хранения. По квантованным отсчетам кепстра в области малых времен в синтезаторе восстанавливается импульсная реакция hv(n) или hu(n) и вычисляется свертка с функцией возбуждения, восстановленной в синтезаторе по информации об основном тоне, признаке тон/шум и соответствующих амплитудах. Этот алгоритм представлен на рис. 8.

Рис.8. Структурная схема гомоморфного вокодера: а) анализатор; б) синтезатор

На рис.8,а показан анализатор. Сначала вычисляется кепстр, а затем с помощью кепстрального окна выделяется область малых времен. Для этого используется обычно первые 26 отсчетов кепстра. Полный кепстр использовался также для выделения информации и об основном тоне и признаке тон/шум. Информация о сигнале возбуждения совместно с квантованными значениями кепстра использовалась для цифрового представления сигнала и передавалась по каналу 50 – 100 раз в секунду. Для синтеза входного сигнала по кепстральному описанию вычислялась импульсная реакция. Поскольку кепстр – это четная функция времени, то для построения кепстра достаточно знать лишь его часть, локализованную в области положительного времени.

Преобразование Фурье части кепстра в области малых времен приводит к логарифму передаточной функции, описывающей совместное влияние речевого тракта, формы импульса возбуждения и излучения. Однако фаза в данном случае равна нулю. В схеме на рис. 8,б преобразование Фурье изменяется для получения действительного четного преобразования, обратное преобразован которого представляет собой «импульсную характеристику». являющуюся четной функцией. Импульсную характеристику, полученную таким образом по кепстру, можно свернуть с последовательностью импульсов, отстоящих друг от друга на период основного тона для вокализованной речи, и с равноотстоящей последовательностью импульсов случайной полярности для невокализованных сегментов.

По логарифмическому спектру можно получить и минимально-фазовую импульсную характеристику, для чего следует использовать кепстральное окно вида

(19}

Тесты на слуховое восприятие показали, что минимально-фазовое описание является наиболее предпочтительным. Это вполне естественно вследствие того, что минимально фазовый сигнал наиболее соответствует речевому сигналу.

Гомоморфный вокодер, как и любые вокодерные системы, в которых пытаются разделить параметры речи на сигнал возбуждения и параметры речевого тракта, позволяет достигнуть малой скорости передачи и дополнительной гибкости при обработке речи ценой усложнения в описании ипотерь в качестве. Данная система обладает тем преимуществом, что кепстр, требующий для. своего вычисления наибольших затрат, позволяет оценить как параметры речевого тракта, так и параметры возбуждения. Данный метод наиболее привлекателен, если имеется возможность использования БИС для вычисления ДПФ.


Литература

1. Блейхут Р. Быстрые алгоритмы цифровой обработки сигналов: Пер. с англ.-М.: Мир, 2002.

2. Гольденберг Л.М. и др. Цифровая обработка сигналов: Справочник.- М.: Радио и связь, 2007.

3. Рабинер Д., Гоулд Б. Теория и применение цифровой обработки сигналов.-М.: Мир, 2005.

4. Ахмед Н., Рао К.Р. Ортогональные преобразования при обработке цифровых сигналов.-М.: Связь, 2003.