СЖАТИЕ ЗВУКОВОЙ ИНФОРМАЦИИ
РАБОТА СО ЗВУКОМ.
При первичном кодировании в студийном тракте используется обычно равномерное квантование отсчетов звукового сигнала (ЗС) с разрешением ∆А= 16–24 бит/отсчет при частоте дискретизации f = 44,1–96 кГц. В каналах студийного качества обычно ∆А =16 бит/отсчет, f = 48 кГц, полоса частот кодируемого звукового сигнала ∆F = 20–20000 Гц. Динамический диапазон такого цифрового канала составляет около 54 дБ. Если f = 48 кГц и ∆А = 16 бит/отсчет, то скорость цифрового потока при передаче одного такого сигнала равна V = 48x16 = 768 кбит/с. Это требует суммарной пропускной способности канала связи при передаче звукового сигнала форматов 5.1 (DolbyDigital) или 3/2 плюс канал сверхнизких частот (DolbySurround, Dolby-Pro-Logic, DolbyTHX) более 3,840 Мбит/с.
Но человек способен своими органами чувств сознательно обрабатывать лишь около 100 бит/с информации. Поэтому можно говорить о присущей первичным цифровым звуковым сигналам значительной избыточности.
Статистическая избыточность обусловлена наличием корреляционной связи между соседними отсчетами временной функции звукового сигнала при его дискретизации. Для ее уменьшения применяют достаточно сложные алгоритмы обработки. При их использовании потери информации нет, однако исходный сигнал оказывается представленным в более компактной форме, что требует меньшего количества бит при его кодировании. Важно, чтобы все эти алгоритмы позволяли бы при обратном преобразовании восстанавливать исходные сигналы без искажений.
Однако даже при использовании достаточно сложных процедур обработки устранение статистической избыточности звуковых сигналов позволяет в конечном итоге уменьшить требуемую пропускную способность канала связи лишь на 15–25% по сравнению с ее исходной величиной, что никак нельзя считать революционным достижением.
После устранения статистической избыточности скорость цифрового потока при передаче высококачественных ЗС и возможности человека по их обработке отличаются, по крайней мере, на несколько порядков. Это свидетельствует также о существенной психоакустической избыточности первичных цифровых ЗС и, следовательно, о возможности ее уменьшения. Наиболее перспективными с этой точки зрения оказались методы, учитывающие такие свойства слуха, как маскировка, предмаскировка и послемаскировка. Если известно, какие доли (части) звукового сигналаухо воспринимает, а какие нет вследствие маскировки, то можно вычленить и затем передать по каналу связи лишь те части сигнала, которые ухо способно воспринять, а неслышимые доли (составляющие исходного сигнала) можно отбросить (не передавать по каналу связи).
Кроме того, сигналы можно квантовать с возможно меньшим разрешением по уровню так, чтобы искажения квантования, изменяясь по величине с изменением уровня самого сигнала, еще оставались бы неслышимыми, т.е. маскировались бы исходным сигналом. Однако после устранения психоакустической избыточности точное восстановление формы временной функции ЗС при декодировании оказывается уже невозможным.
К настоящему времени достаточное распространение в радиовещании получили также еще нескольких стандартов MPEG, таких,какMPEG-2 ISO/IEC 13818-3, 13818-7 и MPEG-4 ISO/IEC 14496-3.
В отличие от этого в США был разработан стандарт DolbyAC-3 (А/52) в качестве альтернативны стандартам MPEG.
Несмотря на значительное разнообразие алгоритмов компрессии цифровых аудиоданных, структура кодера, реализующего такой алгоритм обработки сигналов, может быть представлена в виде обобщенной схемы, показанной на рис. 5.1.
Основная Дополнительная аудиоинформация
Временная и Частотная сегментация звукового сигнала | Нормирование и квантование сигнала | Энтропийное кодирование сигнала | ||||||||||||
Расчет | ||||||||||||||
психоакустической | ||||||||||||||
энтропии | ||||||||||||||
Динамическое | Формирование | |||||||||||||
Психоакустическая | распределение бит | цифровых потоков | ||||||||||||
и управление | и | |||||||||||||
модель | ||||||||||||||
искажениями | помехоустойчивое | |||||||||||||
квантования | кодирование | |||||||||||||
Входной ИКМ | ||||||||||||||
Расчет глобального | Кодированный | |||||||||||||
сигнал | порога маскировки | |||||||||||||
аудиосигнал, | ||||||||||||||
fД =48кГц | V=32...384 кбит/с | |||||||||||||
∆А=16 бит/отсчет | ||||||||||||||
Рис. 1. Обобщенная структурная схема кодера с компрессией цифровых аудиоданных
Дата добавления: 2016-01-03; просмотров: 755;