Применение подобных алгоритмов для сжатия файлов, содержащих оцифрованный звук в 16-битном формате, не позволяет получить сжатие более, чем в 2 раза.
Программы компрессии без потерь в процессе анализа данных создают таблицы повторяющихся последовательностей битов и заменяют часто встречающиеся последовательности более короткими записями (кодами).
Оцифрованный (преобразованный с помощью АЦП) звуковой сигнал обычно не повторяет сам себя и по этой причине плохо сжимается с помощью алгоритмов компрессии без потерь.
Адаптивная разностная компрессия (Adaptive Differential Pulse Code Modulation, ADPCM)используется в основном для сжатия речевых сигналов. Для музыкальных произведений этот алгоритм мало подходит из-за заметных искажений.
Идея компрессии ADPCM заключается в том, что оцифрованный речевой сигнал представляют не самими отсчётами, а разностями соседних отсчетов, меньших по величине и, следовательно, требующих меньшего числа битов для своего представления.
Рассмотрим основные идеи сжатия аудиоинформации, которые базируются на использовании психофизических ограничений (возможностей) человека.
Основные приёмы, положенные в основу сжатия информации с помощью стандартов MPEG, базируются на объективно существующих психоакустических ограничениях органов чувств человека. Человеческое ухо способно воспринимать звуковые колебания, лежащие лишь в диапазоне частот 20—20000 Гц, причем с возрастом этот диапазон сужается.
Методы сжатия звуковых данных, основанные на использовании физиологических особенностей человека, относятся к классу компрессии с потерями.Эти методы не ставят цель абсолютно точного восстановления формы исходных колебаний. Их главная задача — достижение максимального сжатия звукового сигнала при минимальных слышимых искажениях восстановленного после сжатия сигнала.
Звуковой файл можно сжать с помощью компандирования.Название этого метода происходит от английского термина compander, который образован от английских слов: compressing — expanding coder — decoder.
Этот метод основан на законе, открытом психологами: если интенсивность раздражителя меняется в геометрической прогрессии, то интенсивность человеческого восприятия меняется в арифметической прогрессии.
Компандирование заключается в компрессии (сжатии) по амплитуде исходного звукового сигнала и последующем его восстановлении с помощью экспандера (расширителя).
Компрессия — это сжатие динамического диапазона сигнала, когда слабые звуки усиливаются сильнее, а сильные— слабее. На слух это воспринимается как уменьшение различия между тихим и громким звучанием исходного сигнала.
Установлено, что, если повышать громкость звука в 2, 4, 8 и т. д. раз, то человеческое ухо будет воспринимать этот процесс как линейное увеличение интенсивности звука. Изменение уровня громкости с 1 единицы до 2 единиц столь же заметно для человеческого уха, как и изменение громкости от 50 до 100 единиц. В то же время изменение громкости от 100 единиц до 101 единицы человеком практически не ощущается.
Таким образом, ухо человека логарифмирует громкость слышимых звуков.
При компандировании значение амплитуды звука заменяется логарифмом этого значения. Полученные числа округляются, и для их записи требуется меньшее число разрядов.
При 16-битном кодировании звука максимальное значение кода не превышает значение 216. Логарифм этого числа по основанию 2 равен 16. Последнее число может быть закодировано пятью двоичными разрядами (1610 = 100002). Таким образом, для представления информации вместо 16 битов можно использовать лишь 5 битов. Этим достигается сжатие информации.
Ещё один способ сжатия звуковой информации заключается в том, что Для воспроизведения компрессированного сигнала его подвергают обратному по сравнению с логарифмированием преобразованию — потенцированию.
Исходный звуковой сигнал очищается с помощью фильтров от неслышимых компонентов (например, убирают низкие басовые шумы). Затем производится более сложный анализ сигнала: вычисляются и удаляются замаскированные частоты, заглушённые другими мощными сигналами. Таким образом, можно исключить до 70% информации из сигнала, практически не изменив качество его звучания.
Сжатие сигнала также можно получить за счёт еще одного приёма. Если исходный сигнал является стереофоническим, то его можно преобразовать в так называемый совмещённый стереофонический сигнал. Установлено, что слуховой аппарат человека может определить местоположение источника звука лишь на средних частотах, а высокие и низкие частоты звучат как бы отдельно от источника звука. Таким образом, высокие и низкие частоты можно представить в виде монофонического сигнала (т. е. без разделения на два стереофонических канала). Это позволяет вдвое уменьшить объём информации, передаваемой на низких и высоких частотах.
Ещё одна возможность сжатия звукового сигнала связана с наличием двух потоков информации для левого и правого каналов. Например, если в правом канале наблюдается какое-то время полная тишина, то это пустующее место используется для повышения качества звучания левого канала или туда помещают данные, которые не уместились в компрессированный поток в предыдущие моменты времени.
Одно из свойств человеческого слуха заключается в маскировании тихого звука, следующего сразу за громким звуком. Так после выстрела пушки в течение некоторого времени трудно услышать тиканье наручных механических часов или стрекот кузнечиков.
При сжатии звукового сигнала замаскированный, почти неслышимый звук не сохраняется в памяти и не передается через каналы связи. Например, громкий звук длительностью 0,1 с может замаскировать тихие последующие звуки, запаздывающие на время до 0,5 с, а значит, их не надо сохранять. Такая процедура исключения сигнала, следующего за громким звуком, называется маскированием во временной области.
Для человеческого уха характерно также и явление маскирования в частотной области,заключающееся в том, что постоянно звучащий громкий синусоидальный сигнал маскирует («глушит») тихие сигналы, которые близко лежат на оси частот к громкому сигналу.
При техническом использовании таких физиологических особенностей человеческого слуха уплотняемый сигнал переносят с помощью быстрого преобразования Фурье из временной области в частотную область. Затем удаляют спектральные составляющие, замаскированные громким сигналом, и делают обратное преобразование Фурье.
Еще одна возможность компрессии основывается на следующей особенности человеческого слуха. Экспериментально установлено, что в диапазонах частот 20—200 Гц и 14—20 кГц чувствительность человеческого слуха существенно ниже, чем на частотах 0,2—14 кГц. По этой причине допустимо более грубое квантование сигналов в указанных диапазонах частот. На этих частотах для представления непрерывных сигналов двоичными числами требуется меньшее число уровней, а значит и меньшее число битов. Так в среднем диапазоне частот амплитуды кодируются 16 битами, а на частотах, где ухо менее чувствительно — 6 и даже 4 битами.
Дата добавления: 2015-10-09; просмотров: 841;