Искажения звука при сжатии аудиосигналов
Как показал опыт внедрения алгоритмов, с устранением психофизиологической избыточности в частотной области (в частности, алгоритма MUSICAM) их эффективность гораздо ниже рекламируемой и при попытках глубокого устранения избыточности качество передачи недопустимо снижается.
Сравнительные прослушивания стереофонических записей показали, что компрессия цифровых аудиоданных неизбежно сопровождается искажениями: стереопанорама становится более плоской, ее пространственная структура нарушается, исчезают звуковые планы, кажущиеся источники звука смещаются относительно их истинного положения. Кроме того, теряются индивидуальные признаки звучания, свойственные однотипным инструментам в группе, нарушается реверберационный фон каждого из них, возникает ощущение того, что отдельные музыкальные инструменты записаны в разных акустических помещениях, теряются индивидуальные признаки первичного помещения записи. Появление этой совокупности искажений приводит к снижению качества звучания, которое отчетливо отмечается слушателями. Для устранения этих искажений необходимо либо изменить саму процедуру компрессии цифровых аудиоданных при кодировании, либо ввести дополнительную обработку стереофонических сигналов после их декодирования.
Напомним, что при субполосном представлении, звуковой сигнал фильтруется набором фильтров, ширина которых по возможности приближена к ширине критических полосок слуха, и кодируется раздельно в каждой такой полоске (см. также разд. 4.2). При этом статистическая избыточность (т.е. избыточность описания) устраняется за счет: отбрасывания части субполосных сигналов с пренебрежительно малыми энергиями и снижения частоты дискретизации, используемой в каждой полосе; разностного представления субполосного сигнала и статистического выравнивания скорости цифрового потока. Психофизическая избыточность сигнала, определяемая процессом его восприятия, снижается за счет снижения точности представления сигнала в каждой полосе и отбрасывания части информации, не воспринимаемой из-за частотной и временной маскировки в слуховом анализаторе.
Используя перечисленные способы уменьшения избыточности, удается снизить скорость передачи до 100...120 кбит/с на моноканал при сохранении студийного качества сигнала по субъективному восприятию. При использовании статистического выравнивания на длительности около 500 мс удается снизить скорость до 64 кбит/с.
К недостаткам способа представления можно отнести:
- искажения, определяемые несовпадением полосы используемых фильтров и ширины «критических» полосок;
- искажения, определяемые жестким закреплением «критических» полосок по частоте, тогда как в слуховом анализаторе они определяются частотой сигнала и адаптивно смещаются вместе с локальным максимумом огибающей амплитудного спектра;
- искажения, определяемые самой субполосной фильтрацией (межполосным просачиванием, искажениями АЧХ и ФЧХ, неизбежным затягиванием фронтов при цифровой фильтрации);
- сложность построения фильтров с шириной полосы, приближенной к критическим полоскам слуха.
Основной недостаток алгоритма, основанного на субполосной фильтрации, определяется используемой моделью восприятия звукового сигнала. Модель основана на исследованиях закономерностей восприятия малокомпонентных гармонических или узкополосных шумовых сигналов. Как показали дальнейшие исследования, закономерности восприятия реального широкополосного звукового сигнала существенно отличаются от использованных в алгоритме. Так, устранение одной из спектральных составляющих в конкретном звуке - несмотря на то что она находится ниже теоретического порога слышимости, - отчетливо фиксируется слушателями; очень высока чувствительность к фазовым искажениям между составляющими созвучия; ставится под сомнение ход кривых частотной маскировки и т.д. [5, 6, 20].
Анализ мгновенного спектра с помощью ортогональных преобразований проводится с гораздо большей точностью, нежели при субполосном кодировании, приближаясь к представлению сигнала на уровне спектральных составляющих. Это делает более обоснованным использование ортогональных преобразований при кодировании ЗВС.
Напомним, что большинство ортогональных преобразований выполняется с помощью быстрого преобразования Фурье. В процессе выполнения БПФ анализируется бесконечная последовательность функции ЗВС, повторяющейся на длительности в N отсчетов. В результате в спектре оценки появляются коэффициенты, отображающие разрывы первого и второго рода на стыках. Для уменьшения паразитного обогащения спектра оценки анализируемый отрезок входного сигнала умножается на оконную функцию, что позволяет уменьшить обогащение спектра оценки, но уменьшает разрешающую способность анализа.
При представлении звукового сигнала в частотной области с помощью ортогональных преобразований сигнал как бы фильтруется набором фильтров, ширина которых определяется отношением частоты дискретизации к числу точек на длине выборки и, с учетом используемой оконной функции, составляет обычно 100...200 Гц при времени анализа 10...20 мс. При этом - как и в случае субполосного представления - статистическая избыточность устраняется за счет
отбрасывания части коэффициентов с малой энергией, разностного представления коэффициентов и статистического выравнивания скорости цифрового потока. Психофизическую избыточность сигнала удается уменьшить за счет снижения точности представления коэффициентов Фурье, а также отбрасывания части коэффициентов, не воспринимаемых из-за частотной и временной маскировки в слуховом анализаторе.
В результате использования перечисленных способов уменьшения избыточности удается снизить скорость передачи до 100... 120 кбит/с на моноканал при сохранении студийного качества сигнала по субъективному восприятию - т.е. так же, как и в системах с субпо- лосным кодированием. При использовании статистического выравнивания скорость удается снизить до 64...48 кбит/с.
К недостаткам кодирования с ортогональным преобразованием можно отнести искажения, определяемые:
- ошибками представления, когда не учитываются особенности формирования мгновенного спектра с помощью ортогональных преобразований, в частности его обогащение за счет обрывов функции на краях выборки, влияние оконной функции, а также при расположении спектральных составляющих между частотным положением коэффициентов;
- ошибками интерпретации, когда оценка с помощью коэффициентов отождествляется со спектральной оценкой и на нее распространяются закономерности восприятия спектральных составляющих, каковыми коэффициенты не являются.
Как и при субполосном представлении сигнала, существенным источником искажений при кодировании с ортогональным преобразованием является используемая модель восприятия звукового сигнала. Тем не менее, такой способ представления достаточно эффективен и отличается сравнительной простотой программной и аппаратной реализации. Как показано выше, он используется в перспективном формате многоканального представления звукового сигнала Dolby АС-3.
Работы по кодированию сигнала ЗВ в частотной области, проводившиеся в МТУСИ в конце 1980-х - начале 1990-х годов, показали необходимость разработки новой модели слухового восприятия, учитывающей особенности восприятия сложных коррелированных звуковых сигналов и способов спектрального анализа, приближающихся по точности к точности слухового анализатора [3 и др.]..
В психоакустических моделях стандартов MPEG не учтены механизмы временной маскировки сигналов и пространственной демаскировки источников звука, составляющих стереопанораму как по фронту, так и по глубине, а также особенности восприятия рационных составляющих стереофонических сигналов. Именно эти механизмы пространственного слуха играют наиболее важную роль при стереовоспроизведении, они определяют восприятие основных признаков качества стереофонического звучания, таких, как пространственное впечатление, прозрачность звучания, естественность и богатство тембров инструментов и голосов, восприятие акустической атмосферы помещения (концертный зал, студия) и Т.п.
Тем не менее, известные способы компактного представления звуковых вещательных сигналов достаточно эффективны и отличаются сравнительной простотой программной и аппаратной реализации, удовлетворяют массового потребителя и широко используются на практике, практически обеспечивая потребности в высококачественной передаче ЗВС, их записи и воспроизведении. После повсеместного внедрения форматов группы MPEG, пришла пора обсудить их многочисленные недостатки и озаботиться необходимостью создания новых высококачественных форматов компактного представления ЗВС. К этому побуждает и возросшая требовательность потребителя, имеющего в своем распоряжении высококачественную акустику и источники сигнала с качеством, близким к студийному.
Перспективы компактного представления связывают с алгоритмами кодирования источника - MPEG-4 ААС (Advanced Audio Coding) и MPEG-4 CELP, включающими средства повышения помехоустойчивости: первый - для универсального моно- и стереозвукового радиовещания с цифровой скоростью 20 кбит/с, а второй - для монофонического информационного радиовещания (например, при использовании цифровой скорости 8 кбит/с) [46]. Оба алгоритма кодирования дополнительно допускают применение технологии расщепления полосы спектра (SBR - spectral band replication), что обеспечивает передачу почти полной звуковой полосы даже при очень низких скоростях передачи данных, характеризующих алгоритм кодирования. При SBR-кодировании восстанавливается та высокочастотная часть полосы звуковых частот, которая теряется при кодировании (ввиду ограниченности номинала частоты дискретизации). По мнению разработчиков, в результате может быть реализована и даже превышена полоса, свойственная ОВЧ-ЧМ вещанию (15 кГц).
Дата добавления: 2016-05-16; просмотров: 1479;