Технологія MPEG-4 (стр. 3 из 3)

Інструментарій MPEG-4 містить засоби для ефективної архівації звукової інформації різної якості: від 6 kb/s до 128 kb/s. Цей діапазон охоплює усі види сигналів, починаючи від моно і закінчуючи високоякісним стереозвучанням без яких-небудь чутних дефектів. Безсумнівно, якість CD-звучання продовжує залишатися еталоном, однак його вимоги перевищують описані вище в десятки разів - 1411 kb/s.

Для запису високоякісної звукової інформації використовується спеціальний алгоритм кодування (advanced audio coding - AAC), розроблений ще в часи MPEG-2. Ефективність кодування таким алгоритмом значно перевершує навіть формат mp3 - дуже популярний останнім часом звуковий формат.

Кодування мовлення здійснюється двома спеціально розробленими для цього алгоритмами. Перший параметричний кодувач оброблює дані в режимі 2-4 kb/s або навіть меншому. Другий, заснований на технології CELP (code exciter linear prediction), призначений для роботи в режимі 4-24 kb/s. Останній здатний кодувати діапазон частот від 8 до 16 kHz (діапазон, що покриває діапазон людського голосу).

Комбіноване використання різних прийомів MPEG-4 дозволяє навіть на основі записаного тексту генерувати відповідні рухи моделі людського обличчя, про яке ми говорили раніше. Більш того, при відтворенні мовлення за допомогою спеціальних параметрів можна додавати їй певний емоційний відтінок, регулювати швидкість відтворення. Максимально реальної вимови можна домогтися шляхом зміни вікових параметрів, завдання статі і навіть акценту.

Свій власний інструмент!

MPEG-4 належить багато відкриттів в області "структурованого" аудіо. До їхнього числа можна віднести метод кодування звукової інформації при найнижчих швидкостях передачі. Ідея була запозичена в Медіа Лабораторії Массачусетського Технологічного Інституту, що займалася розробкою популярної мови звукового синтезу Csound. На відміну від інших подібних засобів звукового синтезу, "структуроване" аудіо є форматом для опису методики синтезу.

Принцип синтезу звука в "структурованому" аудіо у використанні великої кількість так званих "елементів обробки сигналів": осциляторів, цифрових фільтрів і ін., набори яких використовуються для генерації певних звуків. Кожний такий набір, що задає певний звук (будь то ревіння слона або сигнал тривоги), називається інструментом.

Описана методика лежить в основі синтезу електронної музики. Для обробки і керування електронними інструментами, як правило, використовується одна з мов: мова генерації структурованого оркестрового аудіо (SAOL) або мова партитури структурованого аудіо (SASL). За допомогою такої мови досвідчений програміст-композитор може генерувати практично будь-які звуки від звучання музичних інструментів до шуму водоспаду.

Істотною перевагою такого підходу є гарантована ідентичність результату при відтворенні навіть на терміналах із різними фізичними параметрами устаткування.

На сьогоднішній день ситезатори звучання вже досить популярні. Особливо широко використовується так званий інтерфейс синтезу музичних інструментів (musical instrument digital interface - MIDI) незважаючи на досить обмежені його можливості. З його допомогою також можна управляти відтворенням аудіо в MPEG-4. У багатьох звукових адаптерах для персональних комп'ютерів для синтезу використовується технологія Wavetable.

Звук, що зводить з розуму

Як уже було сказано, аудіо є компонентом об'єктної моделі MPEG-4. Це може бути як монофонічний голосовий канал так і багатоканальний високоякісний звуковий об'єкт. Насправді, пвимоги при моделюванні аудіо визначені набагато жорсткіше, ніж для відео. Представлення аудіо в якості об'єкта сцени значно полегшує його обробку і передачу з каналів вводу (об'єкти сцени) на канали виводу (динаміки).

Особливо чітко ефективність об'єктного представлення аудіо виявляється в тих випадках, коли воно включає декілька ефектів, що можуть використовуватися окремо друг від друга. Приміром, звуковий трек складається з одного об'єкта для відтворення голосу й іншого - для звукового супроводу заднього плану. У цьому випадку легко можна застосувати до голосового об'єкта ефект "ехо", незалежно від музичного супроводження.

Аудіооб'єкты, як і візуальні, можуть задаватися в тривимірному звуковому просторі. Це може бути корисно при проведенні голосових конференцій між великою кількістю людей або для інтерактивних програм, у яких положення джерела звуку не менше істотно, чим положення візуального об'єкта.

Майбутнє MPEG-4

Виникає природне запитанння: які перспективи розвитку в MPEG-4? Перший сервер і декодер MPEG-4 були представлені компанією Phillips Digital Video Systems у вересні 1998 року на Міжнародній Конвенції по Широкомовних Технологіях в Амстердамі. На сьогоднішній день декодер MPEG-4 уже функціонує як компонент відомого Windows Media Player.

Тепер черга за виробниками мобільного устаткування і провайдерами послуг мобільного зв'язку.

Технологією MPEG-4 уже зацікавилися багато радіомовних компаній, оскільки його якість визнана більш високою, чим аналогове AM-радіомовлення. Однак незважаючи на це, ряд компаній ігнорують технологію MPEG-4.

Деякі зустріли нову технологію вороже, думаючи що MPEG-4 витисне з ринку популярний MPEG-2. Інші взагалі відхиляють ідею переходу з аналогового телебачення на цифрове, вважаючи цей процес занадто дорогим.

Однак, MPEG-4 ні в якій мірі не припускає витиснення формату MPEG-2. Навпаки, він відкриває нові можливості в сфері розробки програмного забезпечення і засобів комунікації. У даний момент групою Moving Picture Expert Group розробляється механізм спільного використання MPEG-4 і MPEG-2. У недалекому майбутньому, коли весь світ прийме ідею цифрового радіомовлення, коли звичайні телевізори перетворяться в інтерактивні термінали, наступить нова ера еволюції мультимедіа!