Особенности передачи речевой информации по IP-сетям. Принципы обработки речи и методы кодирования

Задержки. При передаче речи по IP-сети возникают, намного большие, чем в ТфОП, задержки, которые, к тому же, изменяются случайным образом.

Влияние сети. Неустойчиво и плохо предсказуемо время прохождения пакета через сеть. Если нагрузка сети относительно мала, маршрутизаторы и коммутаторы, безусловно, могут обрабатывать пакеты практически мгновенно, а линии связи бывают доступны почти всегда. Если загрузка сети относительно велика, пакеты могут довольно долго ожидать обслуживания в очередях. Чем больше маршрутизаторов, коммутаторов и линий в маршруте, по которому проходит пакет, тем больше время его запаздывания, и тем больше вариация этого времени, т. е. джиттер.

Влияние операционной системы. Большинство приложений IP-телефонии (особенно клиентских) представляет собой обычные программы, выполняемые в среде какой-либо операционной системы, такой как Windows или Linux. Выбор операционной системы является важным фактором, влияющим на общую величину задержки. Чтобы минимизировать влияние операционной системы, некоторые производители шлюзов и IP-телефонов используют так называемые ОС реального времени (VxWorks, pSOS, QNX Neutrino и т. д.), которые используют более сложные механизмы разделения времени процессора, действующие таким образом, чтобы обеспечивать значительно более быструю реакцию на прерывания и более эффективный обмен потоками данных между процессами.

Влияние джиттер-буфера. Проблема джиттера весьма существенна в пакетно-ориентированных сетях. Отправитель речевых пакетов передает их через фиксированные промежутки времени (например, через каждые 20 мс), но при прохождении через сеть задержки пакетов оказываются неодинаковыми, так что они прибывают в пункт назначения через разные промежутки времени. Для того, чтобы компенсировать влияние джиттера, в терминалах используется т. н. джиттер-буфер. Этот буфер хранит в памяти прибывшие пакеты в течение времени, определяемого его емкостью (длиной). Пакеты, прибывающие слишком поздно, когда буфер заполнен, отбрасываются. Интервалы между пакетами восстанавливаются на основе значений временных меток RTP-пакетов. В функции джиттер-буфера обычно входит и восстановление исходной очередности следования пакетов, если при транспортировке по сети они оказались «перепутаны».

Влияние кодека и количества передаваемых в пакете кадров. Большинство современных эффективных алгоритмов кодирования/ декодирования речи ориентировано на передачу информации кадрами, а не последовательностью кодов отдельных отсчетов. Поэтому в течение времени, определяемого длиной кадра кодека, должна накапливаться определенной длины последовательность цифровых представлений отсчетов. Кроме того, некоторым кодекам необходим предварительный анализ большего количества речевой информации, чем должно содержаться в кадре. Это неизбежное время накопления и предварительного анализа входит в общий бюджет длительности задержки пакета.

Для обеспечения качественной передачи речевых сигналов в IP-телефонии необходимо после оцифровки речи удалить эхо из динамика в микрофон, комнатное эхо и непрерывный фоновой шум, а также отфильтровать шумы переменного тока на низких частотах звукового спектра.

В традиционных сетях причиной эха является несовпадение полного электрического сопротивления на стыке четырехпроводного сетевого коммутатора и двухпроводной абонентской линии. Были разработаны и методы борьбы с этим феноменом – от минимизации задержек путем соответ- ствующего планирования сети до применения эхозаградителей и эхоком- пенсаторов. Задержки, свойственные процессам передачи речи по IP-сетям, таковы, что не оставляют выбора и делают механизмы, ограничивающие эффект эха, обязательными в любом оборудовании IP-телефонии. Эхокомпенсаторы являются неотъемлемой частью шлюзов IP-телефонии. Алгоритмы эхокомпенсации реализуются обычно на базе тех же цифровых сигнальных процессоров, что и речевые кодеки, и обеспечивают подавление эхосигналов длительностью до 32 – 64 мс.

Хотя аналоговая сеть идеальна для общения людей, из-за шума в канале она не является ни надежной, ни эффективной. Шум в канале гораздо легче отделить от цифровых выборок, состоящих из бинарных последовательностей нулей и единиц. Следовательно, при преобразовании аналоговых сигналов в цифровые выборки звук получается более чистым. Когда преимущества цифрового представления стали очевидны, телефонная сеть перешла на импульсно-кодовую модуляцию ИКМ (РСМ.)

Принципы кодирования речи. В первую очередь необходимо понять, какими критериями нужно руководствоваться при выборе «хорошего» кодека для использования в IP-телефонии.

Использование полосы пропускания канала. Скорость передачи, которую предусматривают имеющиеся сегодня узкополосные кодеки, лежит в пределах 1.2 – 64 Кбит/с. Естественно, что от этого параметра прямо зависит качество воспроизводимой речи. В рамках существующих технологий качество ТфОП (toll quality) невозможно обеспечить при скоростях менее 5 Кбит/с.

Подавление периодов молчания (VAD, CNG, DTX). При диалоге один его участник говорит, в среднем, только 35 процентов времени. Таким образом, если применить алгоритмы, которые позволяют уменьшить объем информации, передаваемой в периоды молчания, то можно значительно сузить необходимую полосу пропускания. В двустороннем разговоре такие меры позволяют достичь сокращения объема передаваемой информации до 50%, а в децентрализованных многоадресных конференциях (за счет большего количества говорящих) – и более.

Нужно отметить, что определение границ пауз в речи очень существенно для эффективной синхронизации передающей и приемной сторон: приемник может, незначительно изменяя длительности пауз, производить подстройку скорости воспроизведения для каждого отдельного сеанса связи, что исключает необходимость синхронизации тактовых генераторов всех элементов сети, как это имеет место в ТфОП.

Детектор речевой активности (Voice Activity Detector – VAD) необходим для определения периодов времени, когда пользователь говорит. Поддержка прерывистой передачи (Discontinuous Transmission – DTX) позволяет кодеку прекратить передачу пакетов в тот момент, когда VAD обнаружил период молчания. Генератор комфортного шума (Comfort Noise Generator – CNG) служит для генерации фонового шума. В момент, когда в речи активного участника беседы начинается период молчания, терминалы слушающих могут просто отключить воспроизведение звука.

Размер кадра. Большинство узкополосных кодеков обрабатывает речевую информацию блоками, называемыми кадрами (frames), и им необходимо производить предварительный анализ отсчетов, следующих непосредственно за отсчетами в блоке, который они в данный момент кодируют.

Размер кадра важен, так как минимальная теоретически достижимая задержка передачи информации (алгоритмическая задержка) определяется суммой этого параметра и длины буфера предварительного анализа. В действительности процессоры цифровой обработки сигналов, которые выполняют алгоритм кодирования, имеют конечную производительность, так что реальная задержка сигнала больше теоретической.

Чувствительность к потерям кадров. Потери пакетов являются неотъемлемым атрибутом IP-сетей. Так как пакеты содержат кадры, сформированные кодеком, то это вызывает потери кадров. Но потери пакетов и потери кадров не обязательно напрямую связаны между собой, т. к. сущес- твуют подходы (применение кодов с исправлением ошибок), позволяющие уменьшить число потерянных кадров при данном числе потерянных пакетов. Требующаяся для этого дополнительная служебная информация распре- деляется между несколькими пакетами, так что при потере некоторого числа пакетов кадры могут быть восстановлены. Влияние потерь кадров на качество воспроизводимой речи зависит от используемого кодека. Если потерян кадр, состоящий из N речевых отсчетов кодека G.711, то на приемном конце будет отмечен пропуск звукового фрагмента длительностью М*125 мкс. Если используется более совершенный узкополосный кодек, то потеря одного кадра может сказаться на воспроизведении нескольких следующих, т. к. декодеру потребуется время для того, чтобы достичь синхронизации с кодером – потеря кадра длительностью 20 мс может приводить к слышимому эффекту в течение 150 мс и более.

Общепринятыми считаются два варианта ИКМ на 64 Кбит/с: µ-стандарт (используемый в Северной Америке) и а-стандарт (принятй в Европе). В результате сжатия сигнал с амплитудой, кодируемой 12 – 13 битами, описыва- ется всего восемью битами. Различаются эти разновидности ИКМ деталями процесса сжатия (µ-закон кодирования предпочтительнее использовать при малой амплитуде сигнала и при малом отношении сигнал/шум). В обоих случаях каждый отсчет кодируется 8 битами, или одним байтом, который можно считать звуковым фрагментом. Для передачи последовательности таких фрагментов необходима пропускная способность канала, равная 64 Кбит/с. Это определяется простыми арифметическими действиями: 4 000 Гц * 2 = 8 000 отсчетов/с, 8 000 отсчетов/с * 8 битов = 64 Кбит/с, что составляет основу всей цифровой телефонии.

Однако такое высокое качество передачи речевого сигнала (являющееся эталоном при оценке качества других схем кодирования) достигнуто в системах ИКМ за счет явно избыточной, при современном уровне технологии, скорости передачи информации.

Другой метод сжатия – адаптивная дифференциальная импульно-кодовая модуляция – АДИКМ, по которому кодирование происходит с помощью 4-битовых выборок, обеспечивающих частоту передачи 32 Кбит/с. В отличие от ИКМ четырьмя битами кодируется не амплитуда голоса, а разница амплитуды (как частота изменения амплитуды).

Кодеки с вокодерным преобразованием речевого сигнала возникли в системах мобильной связи для снижения требований к пропускной способности радиотракта. Эта группа кодеков использует гармонический синтез сигнала на основании информации о его вокальных составляющих фонемах. Обычно такие кодеки реализованы как аналоговые устройства. Комбинированные (гибридные) кодеки сочетают в себе технологию вокодерного преобразования/синтеза речи, но оперируют уже с цифровым сигналом посредством специализированных процессоров. Кодеки этого типа содержат в себе ИКМ или АДИКМ кодек и реализованный цифровым способом вокодер.

В голосовых шлюзах IP-телефонии понятие кодека подразумевает не только алгоритмы кодирования/декодирования, но и их аппаратную реализацию. Большинство кодеков, используемых в IP-телефонии, описаны рекомендациями семейства «G» стандарта Н.323.

Стандарт G.711 описывает уже известную методику кодирования голосовых данных ИКМ на 64 Кбит/с. Несмотря на то, что рекомендация G.711 в стандарте Н.323 является основной и первичной, в шлюзах IP-телефонии данный кодек применяется редко из-за высоких требований к полосе пропускания и задержкам в канале передачи. Использование G.711 в системах IP-телефонии обосновано лишь в тех случаях, когда требуется обеспечить максимальное качество кодирования речевой информации при небольшом числе одновременных разговоров.

Стандарт G.726 описывает методику кодирования АДИКМ со скоростями передачи 40, 32, 24 и 16 Кбит/с. Метод основан на том, что в аналоговом сигнале, передающем речь, невозможны резкие скачки интенсивности. Поэтому, если кодировать не саму амплитуду сигнала, а её изменение по сравнению с предыдущим значением, то можно обойтись меньшим числом разрядов. Кодек предназначен для использования в системах видеоконференций.

Стандарт G.723.1 – спецификация технологии сжатия, которая может использоваться для сжатия голосовых и аудиосигналов с очень низкой скоростью передачи. Входит в семейство стандартов Н.324. Имеет две скорости передачи 5,3 и 6,3 Кбит/с. Более высокая скорость основана на технологии мультиимпульсного многоуровневого квантования (ML-MLQ) и обеспечивает более высокое качество звука. Более низкая скорость передачи основана на алгоритме сжатия при кодировании методом линейного предсказания (CELP) и обеспечивает системотехникам гибкость в работе. Кодек G.723.1 широко применяется в голосовых шлюзах и прочих устройствах IP-телефонии. Кодек уступает по качеству кодирования G.729, но менее требователен к ресурсам процессора и пропускной способности канала.

Стандарт G.728 – вариант спецификации технологии CELP с низкой задержкой и скоростью передачи 16 Кбит/с. Кодек предназначен для использования в системах видеоконференций. В устройствах IP-телефонии данный кодек применяется достаточно редко.

Стандарт G.729 – описывает технологию сжатия голоса CELP со скоростью передачи 8 Кбит/с. В устройствах VoIP этот кодек занимает лидирующее положение, обеспечивая наилучшее качество кодирования речевой информации при достаточно высокой компрессии.

<== предыдущая лекция	\|	следующая лекция ==>
	\|	Обеспечение качества IP-телефонии

Дата добавления: 2017-09-19; просмотров: 1504;