Искажения звука при сжатии аудиосигналов

Как показал опыт внедрения алгоритмов, с устранением психо­физиологической избыточности в частотной области (в частности, алгоритма MUSICAM) их эффективность гораздо ниже рекламируемой и при попытках глубокого устранения избыточности качество передачи недопустимо снижается.

Сравнительные прослушивания стереофонических записей пока­зали, что компрессия цифровых аудиоданных неизбежно сопровож­дается искажениями: стереопанорама становится более плоской, ее пространственная структура нарушается, исчезают звуковые планы, кажущиеся источники звука смещаются относительно их истинного положения. Кроме того, теряются индивидуальные признаки звуча­ния, свойственные однотипным инструментам в группе, нарушается реверберационный фон каждого из них, возникает ощущение того, что отдельные музыкальные инструменты записаны в разных аку­стических помещениях, теряются индивидуальные признаки первич­ного помещения записи. Появление этой совокупности искажений приводит к снижению качества звучания, которое отчетливо отмеча­ется слушателями. Для устранения этих искажений необходимо ли­бо изменить саму процедуру компрессии цифровых аудиоданных при кодировании, либо ввести дополнительную обработку стерео­фонических сигналов после их декодирования.

Напомним, что при субполосном представлении, звуковой сиг­нал фильтруется набором фильтров, ширина которых по возможно­сти приближена к ширине критических полосок слуха, и кодируется раздельно в каждой такой полоске (см. также разд. 4.2). При этом статистическая избыточность (т.е. избыточность описания) устра­няется за счет: отбрасывания части субполосных сигналов с пре­небрежительно малыми энергиями и снижения частоты дискретиза­ции, используемой в каждой полосе; разностного представления субполосного сигнала и статистического выравнивания скорости цифрового потока. Психофизическая избыточность сигнала, опреде­ляемая процессом его восприятия, снижается за счет снижения точ­ности представления сигнала в каждой полосе и отбрасывания части информации, не воспринимаемой из-за частотной и временной мас­кировки в слуховом анализаторе.

Используя перечисленные способы уменьшения избыточности, удается снизить скорость передачи до 100...120 кбит/с на моноканал при сохранении студийного качества сигнала по субъективному вос­приятию. При использовании статистического выравнивания на дли­тельности около 500 мс удается снизить скорость до 64 кбит/с.

К недостаткам способа представления можно отнести:

- искажения, определяемые несовпадением полосы используе­мых фильтров и ширины «критических» полосок;

- искажения, определяемые жестким закреплением «критиче­ских» полосок по частоте, тогда как в слуховом анализаторе они оп­ределяются частотой сигнала и адаптивно смещаются вместе с ло­кальным максимумом огибающей амплитудного спектра;

- искажения, определяемые самой субполосной фильтрацией (межполосным просачиванием, искажениями АЧХ и ФЧХ, неизбеж­ным затягиванием фронтов при цифровой фильтрации);

- сложность построения фильтров с шириной полосы, прибли­женной к критическим полоскам слуха.

Основной недостаток алгоритма, основанного на субполосной фильтрации, определяется используемой моделью восприятия зву­кового сигнала. Модель основана на исследованиях закономерно­стей восприятия малокомпонентных гармонических или узкополос­ных шумовых сигналов. Как показали дальнейшие исследования, закономерности восприятия реального широкополосного звукового сигнала существенно отличаются от использованных в алгоритме. Так, устранение одной из спектральных составляющих в конкретном звуке - несмотря на то что она находится ниже теоретического поро­га слышимости, - отчетливо фиксируется слушателями; очень высо­ка чувствительность к фазовым искажениям между составляющими созвучия; ставится под сомнение ход кривых частотной маскировки и т.д. [5, 6, 20].

Анализ мгновенного спектра с помощью ортогональных преоб­разований проводится с гораздо большей точностью, нежели при субполосном кодировании, приближаясь к представлению сигнала на уровне спектральных составляющих. Это делает более обосно­ванным использование ортогональных преобразований при кодиро­вании ЗВС.

Напомним, что большинство ортогональных преобразований выполняется с помощью быстрого преобразования Фурье. В процес­се выполнения БПФ анализируется бесконечная последователь­ность функции ЗВС, повторяющейся на длительности в N отсчетов. В результате в спектре оценки появляются коэффициенты, отобра­жающие разрывы первого и второго рода на стыках. Для уменьше­ния паразитного обогащения спектра оценки анализируемый отрезок входного сигнала умножается на оконную функцию, что позволяет уменьшить обогащение спектра оценки, но уменьшает разрешаю­щую способность анализа.

При представлении звукового сигнала в частотной области с помощью ортогональных преобразований сигнал как бы фильтрует­ся набором фильтров, ширина которых определяется отношением частоты дискретизации к числу точек на длине выборки и, с учетом используемой оконной функции, составляет обычно 100...200 Гц при времени анализа 10...20 мс. При этом - как и в случае субполосного представления - статистическая избыточность устраняется за счет

отбрасывания части коэффициентов с малой энергией, разностного представления коэффициентов и статистического выравнивания скорости цифрового потока. Психофизическую избыточность сигнала удается уменьшить за счет снижения точности представления ко­эффициентов Фурье, а также отбрасывания части коэффициентов, не воспринимаемых из-за частотной и временной маскировки в слу­ховом анализаторе.

В результате использования перечисленных способов уменьше­ния избыточности удается снизить скорость передачи до 100... 120 кбит/с на моноканал при сохранении студийного качества сигнала по субъективному восприятию - т.е. так же, как и в системах с субпо- лосным кодированием. При использовании статистического вырав­нивания скорость удается снизить до 64...48 кбит/с.

К недостаткам кодирования с ортогональным преобразованием можно отнести искажения, определяемые:

- ошибками представления, когда не учитываются особенно­сти формирования мгновенного спектра с помощью ортогональных преобразований, в частности его обогащение за счет обрывов функ­ции на краях выборки, влияние оконной функции, а также при распо­ложении спектральных составляющих между частотным положением коэффициентов;

- ошибками интерпретации, когда оценка с помощью коэф­фициентов отождествляется со спектральной оценкой и на нее рас­пространяются закономерности восприятия спектральных состав­ляющих, каковыми коэффициенты не являются.

Как и при субполосном представлении сигнала, существенным источником искажений при кодировании с ортогональным преобра­зованием является используемая модель восприятия звукового сиг­нала. Тем не менее, такой способ представления достаточно эф­фективен и отличается сравнительной простотой программной и ап­паратной реализации. Как показано выше, он используется в пер­спективном формате многоканального представления звукового сиг­нала Dolby АС-3.

Работы по кодированию сигнала ЗВ в частотной области, про­водившиеся в МТУСИ в конце 1980-х - начале 1990-х годов, показа­ли необходимость разработки новой модели слухового восприятия, учитывающей особенности восприятия сложных коррелированных звуковых сигналов и способов спектрального анализа, приближаю­щихся по точности к точности слухового анализатора [3 и др.]..

В психоакустических моделях стандартов MPEG не учтены меха­низмы временной маскировки сигналов и пространственной демас­кировки источников звука, составляющих стереопанораму как по фронту, так и по глубине, а также особенности восприятия рационных составляющих стереофонических сигналов. Именно эти механизмы пространственного слуха играют наиболее важную роль при стереовоспроизведении, они определяют восприятие основных признаков качества стереофонического звучания, таких, как про­странственное впечатление, прозрачность звучания, естественность и богатство тембров инструментов и голосов, восприятие акустиче­ской атмосферы помещения (концертный зал, студия) и Т.п.

Тем не менее, известные способы компактного представления звуковых вещательных сигналов достаточно эффективны и отлича­ются сравнительной простотой программной и аппаратной реализа­ции, удовлетворяют массового потребителя и широко используются на практике, практически обеспечивая потребности в высококачест­венной передаче ЗВС, их записи и воспроизведении. После повсе­местного внедрения форматов группы MPEG, пришла пора обсудить их многочисленные недостатки и озаботиться необходимостью соз­дания новых высококачественных форматов компактного представ­ления ЗВС. К этому побуждает и возросшая требовательность по­требителя, имеющего в своем распоряжении высококачественную акустику и источники сигнала с качеством, близким к студийному.

Перспективы компактного представления связывают с алгорит­мами кодирования источника - MPEG-4 ААС (Advanced Audio Coding) и MPEG-4 CELP, включающими средства повышения поме­хоустойчивости: первый - для универсального моно- и стереозвуко­вого радиовещания с цифровой скоростью 20 кбит/с, а второй - для монофонического информационного радиовещания (например, при использовании цифровой скорости 8 кбит/с) [46]. Оба алгоритма ко­дирования дополнительно допускают применение технологии рас­щепления полосы спектра (SBR - spectral band replication), что обес­печивает передачу почти полной звуковой полосы даже при очень низких скоростях передачи данных, характеризующих алгоритм ко­дирования. При SBR-кодировании восстанавливается та высокочас­тотная часть полосы звуковых частот, которая теряется при кодиро­вании (ввиду ограниченности номинала частоты дискретизации). По мнению разработчиков, в результате может быть реализована и да­же превышена полоса, свойственная ОВЧ-ЧМ вещанию (15 кГц).

 








Дата добавления: 2016-05-16; просмотров: 1479;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.005 сек.