Характеристики кодеков

 

Одной из важных характеристик кодеков является сложность алгоритма кодирования, связанная с необходимыми вычислениями в реальном времени. Сложность алгоритма определяет скорость обработки, измеряемую в миллионах инструкций в секунду (Millions of Instructions Per Second - MIPS). Сложность обработки влияет на физические размеры кодирующего, декодирующего или комбинированного устройства, а также на его стоимость и потребляемую мощность.

Размер кадра влияет на качество воспроизводимой речи: чем длиннее кадр, тем более эффективно моделируется речь. С другой стороны, большие кадры увеличивают длительность задержки на обработку передаваемой информации. Размер кадра кодека определяется компромиссом между этими требованиями.

Временная задержка увеличивается с увеличением размера кадра, а также с увеличением сложности алгоритма кодирования. При передаче речи допустимая задержка в одном направлении не может быть больше 250 мс.


Описание кодеков

 

Комитетом ITU-T стандартизировано несколько типов кодеков, описанных в рекомендациях серии G.

 

G.711

 

Рекомендация МККТТ (1984 г.) описывает кодек, использующий ИКМ-преобразование аналогового сигнала с точностью 8 бит, тактовой частотой 8 кГц и простейшей компрессией амплитуды сигнала. Скорость потока данных на выходе преобразователя составляет 64 кбит/с (8 бит, 8 кГц). Для снижения шума квантования и улучшения преобразования сигналов с небольшой амплитудой при кодировании используется нелинейное квантование по уровню согласно специальному псевдологарифмическому закону А или µ.

µ -закон кодирования предпочтительнее использовать при малой амплитуде сигнала и малом отношении сигнал/шум. При международной связи требуется преобразование µ -закона в A-закон, производимое на стороне применения µ -закона.

Кодек G.711 широко распространен в системах традиционной телефонии с коммутацией каналов. Кодек G.711 является минимально необходимым для оборудования VoIP. Недостатком кодека являются высокие требования к полосе пропускания и задержки в канале передачи, вследствие чего в системах IP-телефонии он используется редко. Исполь­зование G.711 в системах IP-телефонии обосновано лишь в тех случаях, когда требуется обеспечить максимальное качество кодирования речевой информации при небольшом числе одновременных разговоров.

 

G.726

 

Рекомендация G.726 описывает технологию кодирования с использованием адаптивной дифференциальной импульсно-кодовой модуляции (АДИКМ) со скоростями 32 Кбит/с, 24 Кбит/с, 16 Кбит/с. Алгоритм дает практически такое же качество воспроизведения речи, как и ИКМ. Метод основан на кодировании не амплитуды сигнала, а ее изменения по сравнению с предыдущим значением на основании предположения о том, что в аналоговом речевом сигнале невозможны резкие скачки интенсивности. Как следствие, при резких скачках амплитуды алгоритм работает плохо.

Кодек может применяться совместно с кодеком G.711 для снижения скорости кодирования последнего. Кодек предназначен для использования в системах видеоконференций. В приложениях IP-телефонии данный кодек практически не используется, гак как он не обеспечивает достаточной устойчивости к потерям информации.

G.723.1

Рекомендация G.723.1 описывает гибридные кодеки, использующие технологию кодирования речевой информации, сокращенно называемую МР-МLQ (Multy-Pulse-Multy Level Quantization - множественная импульсная многоуровневая квантизация). Данные кодеки можно охарактеризовать, как комбинацию АЦП/ЦАП и вокодера. Применение вокодера позволяет снизить скорость передачи данных в канале, что принципиально важно для эффективного использования как радиотракта. так и IP-канала.

Основной принцип работы вокодера - синтез исходного речевого сигнала посредством адаптивной замены его гармонических составляющих соответствующим набором частотных фонем и согласованными шумовыми коэффициентами. Кодек G.723 осуществляет преобразование аналогового сигнала в поток данных со скоростью 64 Кбит/с (ИКМ), а затем при помощи многополосного цифрового фильтра вокодера выделяет частотные фонемы, анализирует их и передает по IP-каналу информацию только о текущем состоянии фонем в речевом сигнале.

Данный алгоритм преобразования позволяет снизить скорость кодированной информации до 5,3-6.3 Кбит/с без видимого ухудшения качества речи. Кодек имеет две скорости и два варианта кодирования: 6.3 Кбит/с с алгоритмом МР-МLQ и 5.3 Кбит/с с алгоритмом СЕLР. Режим работы может меняться динамически от кадра к кадру. Первый вариант предназначен для сетей с пакетной передачей голоса и обеспечивает лучшее качество кодирования по сравнению с вариантом СЕLР, но менее адаптирован к использованию в сетях со смешанным типом трафика голос-данные.

Кодек G.723.1 имеет детектор речевой активности и обеспечивает генерацию комфортного шума на удаленном конце в период молчания.

Кодек G.723.1 оптимизирован для сжатия речи с высоким качеством на установленной скорости при ограниченной полосе. Музыка и другие аудиосигналы также могут быть подвергнуты компрессии с использованием этого кодека, но не с таким высоким качеством, как речь. Кодек G.723.1 широко применяется в голосовых шлюзах и прочих устройствах IP-телефонии. Кодек уступает по качеству кодирования речи кодеку G.729а, но менее требователен к ресурсам процессора и пропускной способности канала.

G.729

 

Семейство включает кодеки G.729, G.729 Annex А, G.729 Annex В (содержит VAD и генератор комфортного шума). Кодеки G.729 сокращенно называют СS-АСЕLР (Conjugate Structure – Algebraic Code Exited Linear Prediction - сопряженная структура с управляемым ал­гебраическим кодом с линейным предсказанием). Алгоритм основан на модели кодирования с использованием линейного предсказания с кодовым возбуждением (СЕLР-модель). Кодек оперирует с кадрами речевого сигнала длиной 10 мс, дискретизованными с частотой 8 кГц. Скорость кодированного речевого сигнала составляет 8 кбит/с. Для каждого кадра производится анализ речевого сигнала и выделяются параметры модели (коэффициенты фильтра линейного предсказания, индексы и коэффициенты усиления). Далее эти параметры кодируются и передаются в канал. В декодере битовая посылка используется для восстановления параметров сигнала возбуждения и коэффициентов синтезирующего фильтра. Речь восстанавливается путем пропускания сигнала возбуждения через кратковременный синтезирующий фильтр.

В случае потери передаваемой кодером битовой посылки исходные данные для речевого синтезатора получаются интерполяцией данных с предыдущих «хороших» кадров, но при этом энергия интерполированного речевого сигнала постепенно уменьшается, что не создает особого дискомфорта слушателю.

В устройствах VoIP данный кодек занимает лидирующее положение, обеспечивая наилучшее качество кодирования речевой информации при достаточно высокой компрессии.

G.728

Гибридный кодек, описанный в рекомендации G.728, относится к категории LD-СЕLР (Low Delay - Code Exited Linear Prediction - кодек с управляемым кодом с линейным предсказанием и малой задержкой). Кодек обеспечивает скорость преобразования 16 кбит/с и предназначен для использования в системах видеоконференций. Данный кодек специально разрабатывался как более совершенная замена АДИКМ для оборудования уплотнения телефонных каналов. Длительность кадра составляет 0.625 мс, задержка не превышает 2.5 мс.

Недостатком алгоритма являются высокие требования к производительности процессора и относительно высокая чувствительность к потерям кадров.

В устройствах IP-телефонии данный кодек применяется достаточно редко.

Помимо кодеков, стандартизированных ГГС-Т, в сетях могут использоваться кодеки, утвержденные ЕТSI (GSM 06.10), применяемые в мобильных телефонах.

В табл. 3.18 представлены характеристики кодеков серии G.

Наряду с кодеками, специфицированными IТU-Т и ЕТSI, в продуктах некоторых производителей применяются нестандартные кодеки, примером которых может служить кодек NetCoder, разработанный компанией AudioCodes. В случае использования нестандартных кодеков их установка обязательна и на передающей, и на приемной стороне канала связи.

Необходимо отметить, что для приложений IP-телефонии традиционная для кодеков проблема снижения задержки при обработке сигнала не является актуальной, так как величина суммарной задержки при передаче речи в системах IP-телефонии главным образом определяется задержками, вносимыми каналами сети Интернет.

 

Таблица 3.18

Характеристики кодеков серии G

 

Кодек Тип кодека Скорость кодирования, кбит/с Задержка при кодировании, мс Размер кадра, мс Сложность реализации
G.711 ИКМ 0.75 0.125 -
G.726 АДИКМ 0.125 8 MIPS
G.728 LD-CELP 3-5 0,625 40 MIPS
G.729 СS-АСЕLР 30 MIPS
G.729 а СS-АСЕLР 20 MIPS
G.723.1 МР-МL0 6.3 16 MIPS
G.723 1 АСЕLР 5.3 16 MIPS
NetCoder Разновидность СЕLР - -
NetCoder   9.6   -

 

Оценка качества кодирования голоса с использованием различных кодеков производится с помошью характеристики МОS (Mean Opinion Score - усредненное совокупное мнение) по 5-балльной шкале. Оценки интерпретируются следующим образом:

4-5 - высокое качество;

4,5-4 - качество ТфОП;

3 -3.5 - удовлетворительное (ухудшение заметно на слух);

2,5-3 - речь разборчива, но требует концентрации для понимания.

В табл. 3.19 приведены результаты оценки кодеков серии G.

 

Таблица 3.19

 

Результаты оценки кодеков серии G

 

Кодек Оценка
G.711 4.2
G.726 4.3
G.728 4.1
G.729 4.0
G.729А 3.4
G.723.1 (тип МР-МLQ) 3.9
G.723.1 (тип АСЕLР) 3.7

 

При передаче пользователем дополнительной информации при уже установленном соединении (номер карты или номер пункта меню автоинформатора) необходимы кодирование и передача сигналов DТМF Для кодека сигналы DТМF являются обычными звуковыми сигналами. Неискаженная передача DТМF-сигналов возможна при использовании кодека G.711, не накладывающего ограничения на вид звуковых сигналов. Кодеки, в основе алгоритма которых лежит предположение о том, что исходный звуковой сигнал - речевой, требуют применения специальных методов:

- обязательный метод - с использованием специального сообщения протокола Н.245. передаваемого по ТСР-соединению;

- нестандартный метод - с помощью специальной RТР-сессии. Используется в терминалах Н.323v2.

Искаженные сигналы DТМF должны подавляться во избежание возникновения эффектов наложения и размножения сигналов

Для систем IР-телефонии наиболее целесообразным и естественным является применение кодеков с переменном скоростью кодирования речевого сигнала. В основе кодека речи с переменной скоростью лежит классификатор входного сигнала, определяющий степень его информативности и задающий на основе этого метод кодирования и скорость передачи речевых данных. Наиболее простым классификатором речевого сигнала является Voice Activity Detector (VАD), который выделяет во входном речевом сигнале активную речь и паузы. При этом, фрагменты сигнала, классифицируемые как активная речь, кодируются каким-либо из известных алгоритмов (как правило, на базе метода Code Exited Linear Prediction - CELP) с типичной скоростью 4-8 кбит/с. Фрагменты, классифицированные как паузы, кодируются и передаются с очень низкой скоростью (порядка 0.1-0.2 кбит/с), либо не передаются вообще. Передача минимальной информации о паузных фрагментах предпочти­тельна. Использование в голосовом шлюзе технологии VAD приводит к экономии полосы пропускания при некотором ухудшении разборчивости речи.

Схемы более эффективных классификаторов входного сигнала детальнее осуществляют классификацию фрагментов, соответствующих активной речи. Это позволяет оптимизировать выбор стратегии кодирования (скорости передачи данных), выделяя для особо ответственных за качество речи участков речевого сигнала большую скорость, для менее ответственных - меньшую скорость. При таком построении кодеков могут быть достигнуты низкие средние скорости (2-4 кбит/с) при высоком качестве синтезируемой речи.

На практике шлюзы IP-телефонии поддерживают, как правило, несколько кодеков. Шлюз определяет тип передаваемого сигнала (речь, факс или модем) и переключает его на соответствующий режим кодирования с целью обеспечения экономии ширины полосы пропускания.

В табл. 3.20 приведены значения коэффициентов сжатия и ширины полосы пропускания различных кодеков.

 

Таблица 3.20

Кодек Диапазон коэффициента сжатия Рассматриваемый коэффициент сжатия Полоса пропускания, кбит/с Полоса пропускания с учетом подавления пауз, кбит/с
G. 711 µ-закон 1 - 4 84.80 46.59
G. 711 A-закон 1 - 4 84.80 69.52
G. 726 1 - 9 37.69 37.69
G. 729a 1 - 8 14.13 12.12

 

Недостатком кодеков серии G является необходимость знания предыдущих голосовых отсчетов для корректного восстановления голоса. Если часть пакетов будет утеряна, то на восстановление потребуется то или иное время (в зависимости от количества потерянных пакетов), в течение которого голос будет неадекватен исходному. По этой причине на каче­ство передачи речи влияет качество используемых каналов. При случайных, равномерно распределенных во времени потерях качество речи остается относительно высоким (сплошные линии на рис. 3.7), но в случае увеличения потерь в канале резко снижается (штриховые линии).

Рис. 3.7. Сравнение кодеков (5 потерь пакетов)









Дата добавления: 2015-09-11; просмотров: 10203;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2024 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.015 сек.