Различные стандарты сжатия, используемые в системах видеонаблюдения
В системах видеонаблюдения используются различные стандарты сжатия изображения и видеоизображения. Возможно, здесь их больше, чем в любой другой индустрии. Например, в цифровой фотографии чаще всего используется сжатие JPEG, когда необходимо экономить пространство, доступное для хранения снимков. В вещательном телевидении доминирует стандарт MPEG‑2, тогда как в компьютерной индустрии и в Интернете приобрел популярность MPEG‑4.
В разнообразной продукции систем видеонаблюдения используются почти все стандарты сжатия. Для того чтобы правильно их понимать, необходимо разделить все стандарты на две основные категории, о чем мы уже говорили ранее: сжатие, которое применяется к отдельным изображениям, назовем сжатием изображения и сжатие, применяемое к видеопотоку, назовем сжатием видеоизображения. Стандарты, использующие сжатие изображения, работают с отдельными изображениями, тогда как стандарты, использующие сжатие видеоизображения, расценивают время как важную переменную при уменьшении избыточности видеопотока.
Рис. 9.30. Временная шкала, показывающая периоды разработки различных стандартов сжатия и совместную работу ITU‑ T и ISO/IEC
У каждой из этих двух категорий сжатия есть свои преимущества, что зачастую очень затрудняет выбор в пользу какой‑либо из них. Обычно в цифровых видеорегистраторах, которые записывают на жесткие диски несколько телекамер в режиме мультиплексирования, применяется сжатие изображения. Некоторые производители используют два различных стандарта сжатия в одном устройстве. В этом случае для локальной записи используется один стандарт сжатия, а для передачи по сети с низкой пропускной способностью – другой стандарт сжатия видеоизображения, который будет более эффективен для этих целей. Поэтому необходимо знать и понимать все стандарты сжатия и каждый раз оценивать достоинства и недостатки всех стандартов по отношению к проектируемой системе наблюдения.
Некоторые специалисты подразделяют стандарты сжатия на группы по принципу того, какая организация (ITU‑T или ISO) предложила тот или иной стандарт. Но существует и много самостоятельных разработок отдельных производителей, что не позволяет нам принять такое деление. Более того, при разработке новых стандартов рабочие группы ITU‑T и ISO/ЕС работают совместно. В частности новый стандарт сжатия Н.264, работа над которым была начата ITU‑T, велась затем совместно с группой ISO/IEC JTC1.
Следующие стандарты сжатия изображения являются наиболее распространенными в видеонаблюдении. Расположены в порядке появления.
– JPEG – Широкораспространенный стандарт сжатия, который существует уже более 15 лет. Использует DCT‑преобразование. Используется многими программами, такими, как графические редакторы и веб‑броузеры.
– M‑JPEG – Это вариант сжатия JPEG и на самом деле не является стандартом. M‑JPEG – сокращение от Motion JPEG, где каждое изображение является независимо сжатым телевизионным кадром или полем.
– Wavelet – Очень популярное сжатие в видеонаблюдении. Отличается большей эффективностью при сжатии деталей, так как не делит все изображение на блоки 8x8 пикселов.
– JPEG‑2000 – Стандартизованный вариант Wavelet‑сжатия. Доступны дополнительные модули JPEG‑2000 для различных графических редакторов и веб‑броузеров.
– Motion JPEG‑2000 – Принцип действия примерно такой же, как у M‑JPEG, но в качестве основы используется JPEG‑2000. Так выглядит эволюция стандартов сжатия видеоизображения:
– Н.261 – Стандарт для низкой скорости передачи данных, принятый в 1984 ITU для аудиовизуальных сервисов.
– MPEG‑1 – Стандарт ISO, созданный как модификация Н.261 для записи видео на компакт‑диски при низкой скорости передачи данных (около 1.5 Мбит/с).
– MPEG‑2 – Разработан для вещательного телевидения. Использует низкий уровень сжатия для передачи, записи и воспроизведения видео высокого качества. Сейчас используется в большинстве телестудий, на DVD‑дисках, на кабельном телевидении, а также в кабельном телевидении и многими производителями цифровых видеорегистраторов.
– Н.263 – Создавался как адаптация MPEG‑2 для достижения более высоких уровней сжатия при сохранении высокого качества изображения. Был принят как международный стандарт в 1996 году и пересмотрен в 1998 году. Стандарты Н.263+ и Н.263++ представляют собой усовершенствованные версии Н.263.
– MPEG‑4 – Стандарт разрабатывался как объектно‑ориентированное сжатие. Существует несколько версий. Сжимает видео и аудио с широким выбором скорости передачи данных. Пригоден для различных областей применения, которые используют низкоскоростные каналы связи, от мобильной телефонии и Интернета до телевидения.
– MPEG‑7 – Новый стандарт, предназначенный для описания аудиовизуального содержимого.
– MPEG‑21 – Новый стандарт, описывающий общую структуру взаимодействия всех объектов MPEG и пользователей.
– Н.264 – Самый новый стандарт сжатия, который базируется на Н.263 и MPEG‑4 (AVC), который предлагает широкий выбор качества, включая более эффективное сжатие для форматов телевидения высокой четкости (заявлено о втрое большей эффективности по сравнению с MPEG‑2).
Теперь проанализируем их по отдельности.
JPEG
JPEG расшифровывается как объединенная группа экспертов по машинной обработке фотоизображений (Joint Photographic Experts Group ), а это, в свою очередь, является первоначальным названием комитета ISO, который подготовил данный стандарт для цифровой фотографии.
JPEG – это стандартизированный принцип сжатия изображений, который использует DCT‑преобразование для уменьшения избыточности изображения. Он ориентирован только на неподвижные цифровые изображения, при этом разрешение изображения в стандарте не прописано. Такими стоп‑кадрами в телевидении могут служить либо телевизионные поля, либо телевизионные кадры.
Хотя JPEG широко используется в цифровой фотографии и веб‑приложениях, этот стандарт применяется и в видеонаблюдении, где сжатие применяется к оцифрованному видео (телевизионным кадрам и полям), которые обрабатываются как независимые изображения.
Впрочем, JPEG содержит и раздел рекомендаций для сжатия без потерь (с коэффициентом сжатия примерно 2:1), но нас больше интересует способ сжатия JPEG с потерями, когда можно получить коэффициенты сжатия, превышающие 10:1, без заметного ухудшения качества. Работа JPEG основывается на преобразовании блоков, состоящих из 8x8 элементов изображения, на основе дискретного косинусного преобразования (Discrete Cosine Transformation – DCT).
Если изображение с высокой степенью сжатия увеличить, то четко проявляется его блочная структура. Можно достичь степени сжатия до 100 раз. JPEG известен как способ сжатия с потерями, означающий, что, если изображение подвергнется сжатию, то при декомпрессии нельзя получить изображение точно такого же качества, как оригинал. Тем не менее, коэффициенты сжатия, достигаемые с помощью сжатия JPEG, довольно высоки (превышают 10:1), и некоторая потеря качества изображения представляется несущественной для человеческого глаза. JPEG разработан с учетом известных ограничений человеческого глаза, таких, как невосприятие очень мелких деталей цветности, как и мелких деталей яркости в рассматриваемом изображении.
Рис. 9.31. Разбиение на блоки при сжатии JPEG
Для каждого отдельного компонента цвета изображение делится на блоки 8x8, из которых составляется все изображение. Над этими блоками выполняется дискретное косинусное преобразование. Обычно внутри блоков 8x8 значения пикселов изменяются мало. Поэтому энергия имеет низкую пространственную частоту. Преобразование, которое может быть использовано для представления энергии несколькими коэффициентами, является двумерным дискретным косинусным преобразованием блоков 8x8. Это преобразование, широко изучаемое с точки зрения применения его к сжатию изображений, явилось чрезвычайно эффективным для сильно коррелированных данных.
JPEG хранит полную цветовую информацию: 24 бита на пиксел (16 миллионов цветов); можно сравнить, например, с GIF (другая популярная среди пользователей ПК техника сжатия), который может хранить только 8 бит на пиксел (256 или меньшее количество цветов). Полутоновые изображения (в шкале серого) не могут быть сжаты с такими большими коэффициентами компрессии с помощью JPEG, поскольку человеческий глаз намного более чувствителен к изменениям яркости, чем к оттенкам цвета, и JPEG может сжимать данные о цвете в большей степени, чем данные о яркости.
Имеется довольно любопытное наблюдение, которое заключается в том, что JPEG‑файл черно‑белого изображения всего на 10–25 % меньше, чем полноцветный JPEG‑файл визуально подобного качества.
Рис. 9.32. Изображение испытательной таблицы CCTV Labs при записи полями (сжатие JPEG, размер файла 49 кбайт). Увеличенный фрагмент (справа).
Рис. 9.33. Изображение испытательной таблицы CCTV Labs при записи полями (сжатие JPEG, размер файла 15 кбайт). Увеличенный фрагмент (справа).
Кроме того, следует отметить, что JPEG не подходит для штрихового рисунка или текста, поскольку дискретное косинусное преобразование непригодно для очень резких черно‑белых переходов.
JPEG может быть использован для сжатия данных из различных цветовых пространств, таких, как RGB (видеосигнал основных цветов изображения), YCbCr (преобразованный видеосигнал) и CMYK (палитра, используемая в издательских системах), поскольку он обращается с цветами как с отдельными компонентами. Наилучшие результаты по сжатию достигаются, если компоненты цвета независимы (некоррелированны), как это имеет место в YCbCr, где большая часть информации сосредоточена в яркости, а меньшая – в цветности.
Поскольку файлы JPEG, записываемые в системе видеонаблюдения, независимы друг от друга, они легко могут быть воспроизведены в обратном направлении. При этом скорость воспроизведения может быть увеличена или уменьшена, а кроме того, они могут быть скопированы в виде отдельных файлов или группы файлов.
M‑JPEG
В системах видеонаблюдения используется стандарт сжатия, производный от JPEG, который называют motion JPEG (M‑JPEG). На самом деле M‑JPEG не существует как отдельный стандарт, скорее он относится к быстрому потоку изображений JPEG, которые могут быть воспроизведены с достаточно высокой скоростью, создавая при этом иллюзию движения. Поскольку зависимости между отдельными последовательными кадрами не берутся в расчет, такой способ позволяет получить только относительно небольшой уровень сжатия по сравнению со стандартами, использующими сжатие видеоизображения, такими, как семейства Н.26х или MPEG, которые описаны далее. Впрочем, M‑JPEG используется некоторыми производителями многоканальных цифровых видеорегистраторов.
M‑JPEG никогда не был предметом международной стандартизации, a JPEG не определяет стандарт передачи, поэтому реализации M‑JPEG у разных производителей несовместимы между собой. Для увеличения степени сжатия иногда еще используется и сжатие разницы между двумя соседними кадрами. Этот вариант тоже не является стандартным, поэтому для воспроизведения таких записей потребуется программное обеспечение того же производителя.
Wavelet (вейвлет)
Многие десятилетия ученые пытались найти для аппроксимации прерывистых сигналов более подходящие функции, чем синусы и косинусы, которые составляют основу анализа Фурье. По определению синусы и косинусы являются нелокальными функциями (они определены в бесконечной области). В этом заключена главная причина их плохой работы при аппроксимации резких переходов, таких, как отдельные детали изображения с высоким разрешением в конечном двумерном кадре. Кадры именно такого типа мы наиболее часто наблюдаем при записи в мультиплексированном режиме, они отличаются от непрерывного потока движущихся изображений в обычном телевидении. Вейвлет‑анализ действует иначе и позволяет более эффективно обрабатывать мелкие детали изображения.
Авторами этой математической модели были Гроссман и Морле (A.Grossman и J.Morlet), которые и применили термин Wavelet (вейвлет) в середине 80‑х годов в связи с анализом свойств сейсмических и акустических сигналов. В результате вейвлет‑сжатие изначально применялось в таких сферах, как астрономия и геофизика. Вскоре, когда компания Analog Devices выпустила аппаратную реализацию вейвлет‑сжатия (кодек ADV601), оказалось, что его (сжатие) можно превосходно использовать в видеонаблюдении.
Вейвлет‑сжатие преобразует полное изображение, а не его секции 8x8, как это происходит в JPEG, и является более естественным, так как отслеживает формы объектов в изображении. Поэтому вейвлет‑сжатие оказалось особенно привлекательным для систем видеонаблюдения.
Рис. 9.34. Один из остроумных способов применения вейвлет‑сжатия методом зигзага
Рис. 9.35. Изображение испытательной таблицы CCTV Labs при записи полями (сжатие Wavelet, размер файла 45 кбайт). Увеличенный фрагмент (справа)
Рис. 9.36. Изображение испытательной таблицы CCTV Labs при записи полями (сжатие Wavelet, размер файла 15 кбайт). Увеличенный фрагмент (справа).
С помощью вейвлет‑анализа мы можем использовать аппроксимационные функции, определенные на конечных областях. Вейвлет‑функции – это функции, которые удовлетворяют определенным математическим требованиям и используются для представления данных или других функций в вейвлет‑анализе. Главное отличие от БПФ‑анализа (быстрого преобразования Фурье) заключается в том, что вейвлет‑функции разлагают сигнал по разным частотам с различным разрешением, то есть на множество малых групп волн, отсюда и название – вейвлет, элементарные волны. Алгоритмы вейвлет‑преобразования обрабатывают данные в различных масштабах и с разным разрешением. Вейвлет‑анализ позволяет разглядеть и отдельные детали, и глобальное изображение, или, как выразились некоторые авторы вейвлет‑анализа, «увидеть и лес, и отдельные деревья» в противоположность анализу Фурье, который позволяет «видеть только лес».
Вейвлет‑анализ хорошо подходит для аппроксимации данных с резкими границами. Процедура вейвлет‑анализа заключается в подборе функции‑прототипа элементарной волны, называемой анализирующей или порождающей волной. Временной анализ выполняется в укороченной высокочастотной версии функции‑прототипа, в то время как частотный анализ производится в ее расширенной низкочастотной версии. Поскольку оригинальный сигнал или функция могут быть представлены в виде разложения по вейвлет‑функциям (с применением коэффициентов в линейной комбинации с вейвлет‑функциями), то операции с данными могут выполняться посредством использования всего лишь соответствующих вейвлет‑коэффициентов.
Одна интересная особенность аппаратной реализации вейвлет‑сжатия позволяет выбрать «область интереса» или «зону повышенной детализации» («Area of Interest » или «Quality Box »). Эта область может быть сжата с лучшим качеством и соответственно более высокой детализацией интересующих нас объектов по сравнению с остальным изображением, а ее использование позволяет значительно уменьшить размер файла сжатого изображения.
Рис. 9.37. Современные аппаратные реализации вейвлет‑компресии позволяют выделить «область интереса» или «зону повышенной детализации»
JPEG‑2000
JPEG‑2000 (ISO 15444) представляет собой стандартизированную в общих чертах версию вейвлет‑сжатия, которая была разработана группой JPEG. Когда в 90‑х годах появилась аппаратная реализация вейвлет‑сжатия от Analog Devices еще не существовало общего стандарта. Эксперты из группы JPEG быстро оценили преимущества вейвлет‑сжатия и приступили к работе над новым стандартом сжатия. Завершение работы над новым стандартом было намечено на 2000 год – отсюда и идет название JPEG‑2000.
С появлением единого стандарта JPEG‑2000 стало возможно широкое применение вейвлет‑сжатия при полной совместимости между различными продуктами и программами разных производителей. Появилось большое количество дополнительных программных модулей и аппаратных реализаций, что позволяет переносить изображения, сжатые этим стандартом, между различными платформами. Сейчас можно найти в Интернете дополнительные модули для Adobe Photoshop и веб‑броузеров, реализующие поддержку JPEG‑2000. Некоторые графические редакторы, такие, как Corel Photo Paint и JASC Paint Shop Pro уже имеют встроенную поддержку JPEG‑2000. Именно для этого и проводится стандартизация, что позволяет нам работать с одним стандартным форматом файла в самых разных программах. Многие производители уже выпустили свои аппаратные реализации стандарта JPEG‑2000, и эти кодеки доступны для видеонаблюдения.
Кроме того, стандарт JPEG‑2000 предусматривает использование встраиваемой информации об авторе или источнике изображения. Для нас это полезно тем, что таким образом можно устанавливать подлинность изображения в видеонаблюдении. Существуют и варианты JPEG‑2000, один из которых применим к видеоизображению и называется Motion JPEG‑2000.
Рис. 9.38. Новый кодек ADV202 от Analog Devices использует JPEG‑2000 и имеет большие перспективы для применения в охранном телевидении и телевидении высокой четкости.
Motion JPEG‑2000
Motion JPEG‑2000 это новый стандарт сжатия. Хотя он пока еще не используется в видеонаблюдении, но он очень перспективен, поэтому мы его упоминаем здесь. Благодаря масштабируемости вейвлет‑сжатия Motion JPEG‑2000 позволяет из одного видеопотока быстро получать видеопотоки разного разрешения. Эта особенность удачно используется в тех случаях, когда видеопоток с высоким разрешением используется для записи, а для удаленного просмотра используется видеопоток меньшего разрешения. Поскольку Motion JPEG‑2000 является стандартом сжатия изображения, то все сжатые кадры (поля) независимы, что упрощает произвольный доступ к ним. Кроме того, это упрощает точно датирование кадров, что важно для видеонаблюдения и использования кадров в качестве доказательства в суде. Сжатие изображения происходит в режиме реального времени без задержки, что также упрощает процедуру хранения и передачи по сети видеопотоков.
MPEG‑1
MPEG‑1 (ISO 11172) – один из первых стандартов сжатия, предложенный группой MPEG (Motion Pictures Experts Group – экспертная группа по вопросам движущегося изображения ISO) вскоре после появления Н.261. MPEG‑1 принадлежит к категории стандартов сжатия видеоизображения. Он работает с непрерывным оцифрованным видеосигналом и включает два звуковых канала. Визуальное качество при типичных уровнях сжатия (как на дисках VCD, например) сопоставимо с качеством записи аналогового видеомагнитофона VHS. Для сжатия звука сейчас используется популярный формат МРЗ.
MPEG‑1 работает с последовательностью изображений формата CIF (352x288 для PAL; 352x240 для NTSC). Цветовая информация представлена половиной этого разрешения (176x144 или 176x120). Для MPEG‑1 типичный видеопоток будет от 1 Мбит/с до 3 Мбит/с. Во время появления стандарта MPEG‑1 у большинства проигрывателей компакт‑дисков скорость передачи данных достигала примерно 1.5 Мбит/с, а основным применением нового стандарта сжатия была запись видео на компакт‑диски. На компакт‑диске объемом 700 Мбайт можно хранить до 1 часа видео, по этой причине для записи фильмов в формате VCD требовалось обычно два диска.
Рис. 9.39. Крайне упрощенное представление того, каким образом из опорного кадра вычисляются промежуточные
MPEG сам по себе определяет не алгоритмы сжатия (хотя и основан на DCT‑преобразовании), а сжатие именно видеопотока, то есть организацию цифровых данных для записи, воспроизведения и передачи. Алгоритмы сжатия выбираются уже разработчиками, и качество сжатия будет сильно зависеть от выбранных алгоритмов.
Основная идея, которая лежит в основе сжатия видеоизображения, заключается в предсказании движения от кадра к кадру во временном направлении, после чего используется DCT‑преобразование для выявления избыточности в пространственных направлениях. DCT‑преобразование осуществляется на блоках 8x8, а предсказание движения осуществляется в яркостном канале (Y) на блоках 16x16. Другими словами блок 16x16 пикселов в текущем кадре кодируется с учетом такого же блока в предыдущем и последующем кадре. Например, в режиме обратного предсказания движения кадры, которые идут позже по времени, обрабатываются раньше, чтобы установить межкадровую зависимость.
Далее коэффициенты DCT‑преобразования (самих видеоданных или разницы блоков) подвергаются квантованию. Вероятно, многие коэффициенты будут нулями.
Квантование может изменяться для каждого макроблока (макроблока 16x16 для Y и соответственно 8x8 для U и для V).
Рис. 9.40. Взаимосвязь кадров в группе изображений с 9 кадрами
Ко всем полученным в результате данным, которые включают коэффициенты DCT‑преобразования, векторы движения, параметры квантования и другую информацию.
Существует три типа кадров в стандарте MPEG‑1 (тоже самое и в MPEG‑2): l‑кадры (intra frames , кадры с внутренним кодированием), Р‑кадры (predicted frames , кадры с предсказанным кодированием) и В‑кадры (bidirectional frames , кадры, при кодировании которых используется предсказание, сформированное на основе предшествующего и последующего кадра).
l‑кадры в общих чертах представляют собой изображения, которые кодируются с использованием только той информации, которая содержится в них самих (то же самое происходит при сжатии JPEG). Здесь устраняется только пространственная избыточность, и l‑кадры затем используются как опорные для Р‑ и В‑кадров, для которых используется межкадровое кодирование, что позволяет устранить и пространственную, и временную избыточность. Р‑кадры кодируются с опорой на ближайший I‑ или Р‑кадр. Каждый макроблок в Р‑кадре может содержать коэффициенты DCT‑преобразования разницы между этим макроблоком и аналогичным блоком в опорном кадре, либо только коэффициенты DCT‑преобразования, как в l‑кадре, если разница получается слишком большой. В‑кадры кодируются с опорой на два ближайших I‑ или Р‑кадра, один из которых предшествует В‑кадру, а другой следует за В‑кадром. Их название происходит от английского bidirectional , то есть двунаправленные (к предшествующему и последующему кадру). Кстати, именно этим и обусловлена задержка кодирования, типичная для сжатия MPEG.
Дата добавления: 2015-05-08; просмотров: 4123;