ITU‑601 : Объединяя NTSC и PAL
Прежде чем перейти к обработке или хранению сигнала в цифровом формате, осуществляется его аналого‑цифровое преобразование. Оно может производиться в сетевой телекамере или в цифровом видеорегистраторе. На этом этапе происходит дискретизация и квантование аналогового сигнала (преобразование в дискретную форму). Частота дискретизации и количество уровней квантования зависят от качества и быстродействия электроники и определяют разрешение (качество) оцифрованного изображения и частоту регенерации цифровой кадровой памяти. В данной связи необходимо понимать, что, несмотря на большой выбор вариантов дискретизации и квантования при аналого‑цифровом преобразовании, был разработан телевизионный стандарт оцифровки и большая часть продукции, используемой в видеонаблюдении, соответствует ему.
Рекомендация ITU‑R BT.601 определяет оцифровку аналогового видеосигнала, состоящего из яркостной компоненты Y красной цветоразностной компоненты и синей цветоразностной компоненты, с базовой частотой дискретизации 3.375 МГц, которая будет общей как для PAL, так и для NTSC. Яркостная компонента оцифровывается с четырехкратной базовой частотой дискретизации (то есть 3.375 х 4 = 13.5 МГц), а цветоразностные компоненты оцифровываются с двукратным увеличением базовой частоты дискретизации (то есть 6.75 МГц). Таким образом, этот формат оцифровки известен как 4:2:2. Существуют и другие форматы оцифровки, такие, как 4:1:1 и 4:4:4, но формат 4:2:2 является одним из наиболее распространенных в видеонаблюдении.
Если мы сейчас вспомним количество строк в кадре и количество кадров в секунду для стандарта, то, перемножив 625 строк в кадре на 25 кадров в секунду, получим 15625 строк в секунду. Теперь частоту дискретизации 13.5 МГц (то есть 13500000 раз в секунду) разделим на полученное значение, что даст нам 864 отсчета для каждой строки. Таково качество дискретизации видеосигнала PAL согласно рекомендациям ITU‑601C частотой дискретизации 13.5 МГц. Поскольку длительность строки PAL составляет 64 мкс, то 864 отсчета, которые приходятся на строку, разбивают этот период времени на очень малые интервалы (см. рис. 9.6).
Рис. 9.6. Частота дискретизации, рекомендованная ITU‑601
Следует отметить, что 864 отсчета в строке включают в себя и импульсы синхронизации.
Для стандарта NTSC с 525 строками и частотой обновления 59.94 Гц (именно 59.94, а не 60) мы получаем 525 х 29.97 Гц = 15734.25 строк в секунду. Разделив 13.5 МГц на 15734.25 Гц, получим 858 отсчетов на одну строку, которые опять будут включать в себя импульсы синхронизации.
Рис. 9.7. Дискретизация сигнала
Итак, подводя итоги, еще раз отметим, что, согласно рекомендации ITU‑601, для дискретизации яркостного сигнала в стандарте PAL используется 864 отсчета на одну строку, а в стандарте NTSC – 858 отсчетов на строку. В обоих случаях используется частота 13.5 МГц.
Из изложенных выше фактов следует очень важный вывод: ITU‑R BT.601 представляет собой первую международную рекомендацию, которая пытается объединить в рамках общей цифровой концепции дискретизации два несовместимых аналоговых композитных телевизионных стандарта (NTSC с 525/59.94 и PAL с 625/50). Основным достижением этой рекомендации стал выбор общей частоты дискретизации 13.5 МГц, которая одинакова для обоих стандартов.
Из 864 отсчетов для PAL и 858 отсчетов для NTSC в обоих случаях на активные строки без синхроимпульсов приходится по 720 отсчетов. Это максимальное горизонтальное разрешение видеосигнала, оцифрованного согласно рекомендации ITU‑601. Термин «разрешение» здесь используется в более широком значении, чем в аналоговом телевидении, где разрешение выражено в ТВ‑линиях, но об этом мы поговорим подробнее далее.
Некоторые из вас могут задать вопрос: «Почему именно 720 отсчетов, а не больше или меньше?» Это связано с тем, что 720 без остатка делится на 8 (то есть, 23), что очень удобно для большинства стандартов сжатия, использующих дискретное косинусное преобразование (JPEG, MPEG, серия стандартов Н), где изображение разбивается на блоки 8x8 пикселов.
Рис. 9.8. Количество пикселов в кадре, согласно рекомендации ITU‑601
Очень часто приходится сталкиваться с такой ситуацией, что цифровое оборудование «отрезает» по 8 отсчетов слева и справа активной строки, в которой после этого остается 704 пиксела вместо 720. Это сделано для того, чтобы более устойчиво обрабатывать нестабильные сигналы от различных телекамер.
Вертикальная дискретизация, согласно рекомендации ITU‑601, равна количеству активных строк, которых приходится 288 на одно телевизионное поле (или 576 для полного телевизионного кадра) в PAL и 240 на одно телевизионное поле (или 480 для полного телевизионного кадра) в NTSC.
Таким образом, оцифрованный согласно рекомендации ITU‑601 телевизионный кадр имеет формат 720x576 пикселов для PAL и 720x480 пикселов для NTSC.
Это показывает, что рекомендация ITU‑601 учитывает чересстрочную развертку, что позволяет во многих цифровых видеорегистраторах выбрать режим записи полями или кадрами.
Наблюдательный читатель, вероятно, уже заметил в приведенных выше числах некоторое несоответствие, которое иногда сбивает с толку, когда речь идет о цифровом видео. Эта неточность касается соотношения сторон в телевидении стандартной четкости и в изображениях, получаемых при оцифровке согласно рекомендации ITU‑601. Как мы знаем, все видеомониторы в системах видеонаблюдения имеют соотношение сторон 4:3 = 1.33, но соотношение сторон по рекомендации ITU‑601 для кадра PAL будет 720:576 =1.25, а для кадра NTSC 720:480 = 1.5. Это приводит к появлению т. н. «неквадратных» пикселов в обоих телевизионных стандартах. В стандарте PAL пикселы сжимаются по горизонтали, и поэтому для отображения на мониторе с соотношением сторон 4:3 кадр необходимо растянуть. В стандарте NTSC пикселы необходимо растягивать уже по вертикали перед выводом на монитор, так как они были сжаты по вертикали. Это растяжение пикселов выполняется на последнем этапе декодирования изображения перед его отображением. Это может показаться необязательным, но, тем не менее, именно растяжение пикселов позволяет сделать декодирующую электронику более универсальной и дешевой, так как она используется как для PAL, так и для NTSC.
Рис. 9.9. Пример испытательной таблицы, оцифрованной согласно рекомендации ITU‑601. Обратите внимание на горизонтальное сжатие для PAL (слева), и как оно пропадает при аналоговом выводе (справа).
Разрешение изображения, оцифрованного согласно рекомендации ITU‑601
Согласно теории Найквиста, непрерывный аналоговый сигнал может быть реконструирован без потери информации из отдельных частей, если частота дискретизации не менее чем в два раза выше самой высокочастотной составляющей спектра сигнала. Когда в сигнале появляются высокочастотные паразитные составляющие, то они приводят к наложению спектров (наподобие муара, эффект алиасинга, aliasing ), поэтому они крайне нежелательны. Чтобы избавиться от паразитных высоких частот, сигнал нужно пропустить через фильтр низких частот, который отсечет все частоты, выше максимальной, которая равна половине частоты дискретизации. Идеального фильтра низких частот на практике не существует, поэтому отсекание частот будет происходить немного ниже, чем требуется теорией. Это имеет прямое отношение к количеству горизонтальных элементов (пикселов), которые сможет обрабатывать цифровая система.
В идеальных условиях, если не производится дополнительная фильтрация сигнала, то, имея частоту Найквиста 6.75 МГц (то есть частота дискретизации составит 13.5 МГц), 720 пикселов в активной строке будут эквивалентны горизонтальному разрешению 3/4x720=540 ТВ‑линий, как это определено в аналоговом телевидении.
Впрочем, рекомендация ITU‑601 определяет и отсекание частот до 5.75 МГц за счет работы дополнительного фильтра защиты от наложения спектров (anti‑aliasing and reconstruction filter ), что уменьшает горизонтальное разрешение аналогового яркостного сигнала до 449 ТВ‑линий для PAL и 455 ТВ‑линий для NTSC.
Дальнейшее уменьшение разрешения связано уже со сжатием изображения, поэтому мы можем сказать, что на практике ни один оцифрованный видеосигнал в видеонаблюдении не может иметь разрешение выше, чем примерно 450 ТВ‑линий. Теперь становится очевидным, что выбор такого алгоритма сжатия, который дает минимальные потери качества, является предметом первостепенной важности. Но это требование противоречит необходимости очень длительной записи, которая достигается за счет повышения уровня сжатия. Различные стандарты сжатия мы тоже рассмотрим в этой главе, но сейчас необходимо подчеркнуть, что вышеприведенный предел горизонтального разрешения оцифрованного видеосигнала справедлив еще до того, как будет осуществлено сжатие изображения.
Глаз человека менее чувствителен к цветовому разрешению, поэтому в видеонаблюдении формат оцифровки 4:2:2 мы считаем как вполне приемлемый, где дискретизация цветоразностных сигналов осуществляется с частотой 6.75МГц (вдвое меньше, чем частота дискретизации яркостного сигнала). Это дает 432 пиксела для PAL и 429 пикселов для NTSC в одной строке (включая импульсы синхронизации). Таким образом, в одной оцифрованной активной строке умещается 360 цветоразностных красных отсчетов и 360 цветоразностных синих отсчетов для обоих телевизионных стандартов.
Рис. 9.10. Разница между полным кадром 720x576 пикселов (иллюстрация слева) и изображением формата CIF (360x288) будет достаточно велика, а иногда будет заключаться в том, что вы сможете или не сможете распознать автомобильный номер. В качестве примера сказанному внимательно посмотрите на фотографию (машина справа).
В идеальных условиях, когда частота Найквиста будет равна 3.375 МГц, 360 отсчетов в активной строке будут эквивалентны 3/4x360=270 ТВ‑линиям. Рекомендация ITU‑601 определяет и отсекание частот до 2.75 МГц за счет работы дополнительного фильтра защиты от наложения спектров, что уменьшает горизонтальное разрешение аналоговых цветоразностных сигналов до 215 ТВ‑линий для PAL и 218 ТВ‑линий для NTSC.
Все изложенное выше и в особенности данные об оцифровке яркостного сигнала позволяет нам прийти к очень важному заключению относительно разрешения оцифрованного видео. Сразу отметим, что наш вывод касается только рекомендации ITU‑601, а, как уже было сказано выше, большинство цифрового оборудования, которое используется в видеонаблюдении, придерживается этой рекомендации.
При записи на цифровые видеорегистраторы, совместимые с рекомендацией ITU‑601, мы не получим никакого преимущества от телекамер с разрешением выше 450 ТВ‑линий.
Нечто похожее уже наблюдалось в истории видеонаблюдения, когда использовались телекамеры высокого разрешения (например, 460 ТВ‑линий) для записи на видеомагнитофоны VHS, у которых разрешение ограничено было 240 ТВ‑линиями из‑за фильтра низких частот. Конечно, разница в случае с цифровыми видеорегистраторами не будет такой существенной, так как относительно недавно некоторые производители заявили о выпуске цветных телекамер с разрешением 520 ТВ‑линий. На практике это для нас означает, что мы не увидим никакой разницы от телекамеры с 460 ТВ‑линиями и 480 ТВ‑линиями или даже 520 ТВ‑линиями горизонтального разрешения при записи цветного изображения на цифровой видеорегистратор (даже самого лучшего качества), соответствующий рекомендации ITU‑601. Следует уделить больше внимания выбору телекамеры с лучшим отношением сигнал/шум, меньшим смазыванием или лучшим динамическим диапазоном, чем ориентироваться на небольшие отличия в горизонтальной разрешающей способности, которые все равно никто не сможет увидеть. Но если система предназначена только для наблюдения с использованием высококачественных видеомониторов, у которых разрешение превышает 500 ТВ‑линий, такая небольшая разница в разрешении может оказаться полезной. Впрочем, это потребует подключения раздельного видеосигнала Y/C вместо композитного видеосигнала, что очень редко используется в видеонаблюдении, иначе разница будет практически незаметной.
Конечно, никто не может предсказать, с чем мы столкнемся в будущем, но уже сейчас с уверенностью можно сказать, что рано или поздно в видеонаблюдении появятся телекамеры высокого разрешения и соответствующие им рекомендации по оцифровке. Однако, пока этого не произошло, нам необходимо помнить о всех ограничениях, с которыми нам приходится сталкиваться, и компромиссах, которые заложены в цифровых системах видеонаблюдения.
Все, что было изложено выше, справедливо для горизонтального разрешения, но теперь настало время поговорить о вертикальном разрешении. Для некоторых цифровых систем видеонаблюдения вертикальное разрешение будет не менее важно, чем горизонтальное, особенно в тех случаях, когда необходимо распознать лицо или номерной знак автомобиля на расстоянии.
Рис. 9.11. ITU‑ 601 рекомендует несколько форматов оцифровки, из которых в видеонаблюдении широко распространен формат 4:2:2.
Рис. 9.12. Если частота дискретизации слишком низка, то видеосигнал будет реконструирован неверно
Рис. 9.13. Слева: ТВ‑поле; В центре: Эффект чересстрочной «гребенки»; Справа: Работа алгоритма деинтерлейсинга. Обратите внимание на зубчатые контуры автомобиля на иллюстрации слева, где была использована запись полями, и на качество тех же контуров на иллюстрациях в центре и справа, где использовалась запись кадрами.
В рекомендации ITU‑601 выбрано 8‑битное квантование, что дает нам 256 уровней квантования(28 = 256). Этот выбор очень практичен с инженерной точки зрения: ни одна электронно‑лучевая трубка не в состоянии передать более 250 оттенков серого, поэтому не имеет смысла квантовать видеосигнал большим количеством уровней. Значение 256 выбрано потому, что оно является степенью двойки, а в мире цифровых устройств, как мы знаем, все представлено нулями и единицами (то есть, в двоичной системе счисления).
Имея дело с рекомендацией ITU‑601, мы должны быть готовы к появлению новых подводных камней. Как было в случае с частотой дискретизации 13.5 МГц, которая учитывала весь видеосигнал, включая синхроимпульсы, ITU‑601 рекомендует использовать 8‑битный диапазон уровней квантования для представления всех вертикальных деталей видеосигнала. В данном случае мы можем расценивать время как горизонтальные детали, так как оно имеет дело со строками, которые разворачиваются на мониторе по горизонтали.
Таким образом, ITU‑601 предлагает из 256 доступных уровней квантования 8‑битного диапазона значения 0 и 255 использовать для синхронизации, а значения от 1 до 254 – для видео. Яркостный уровень черного задается значением 16 (двоичное значение 00010000), а уровню белого присваивается значение 235 (двоичное значение 11101011). Значение 128 зарезервировано для определения цветного или черно‑белого видеосигнала.
Рис. 9.14. Сравнение полнокадрового формата с форматом CIF
Как уже было сказано выше, количество пикселов по вертикали в ТВ‑кадре PAL будет 576, тогда как для NTSC это будет 480, что соответствует количеству активных строк в этих телевизионных стандартах. Необходимо напомнить читателям, что аналоговые телекамеры в видеонаблюдении генерируют видеосигнал с чересстрочной разверткой (50 полей в секунду или 29.97 полей в секунду). Кадр при чересстрочной развертке состоит из двух телевизионных полей, смещенных во времени относительно друг друга (на 1/50 секунды для PAL и 1/29.97 секунды для NTSC). Поэтому в оцифрованном видеофрагменте с движущимися объектами может проявляться эффект чересстрочной «гребенки» при записи полными кадрами. Это нормальный телевизионный эффект, возникающий как следствие чересстрочной развертки. Это даже не ошибка оцифровки, как иногда считают. При этом возникает ощущение, что движущиеся объекты размываются в направлении движения, и, чем быстрее движется объект, тем сильнее будет заметен этот эффект.
Существуют специальные алгоритмы обработки цифрового изображения, которые позволяют минимизировать или полностью исключить этот эффект. Это называется деинтерлейсингом (de‑interlacing ). Такая функция присутствует в различных графических редакторах, таких, как Photoshop или Photopaint , но ее имеют и некоторые цифровые видеорегистраторы.
Рис. 9.15. Полный кадр, записанный цифровым видеорегистратором с использованием Wavelet‑сжатия
Рис. 9.16. Полный кадр, записанный цифровым видеорегистратором с использованием сжатия MPEG‑2
При записи в полнокадровом режиме, в отличие от записи полями, вертикальное разрешение повышается в два раза, что делает края объектов более плавными и позволяет видеть больше деталей (см. примеры на иллюстрациях). Когда запись ведется кадрами, но телевизионные поля записываются и обрабатываются раздельно, то при отображении такого фрагмента на экран выводятся поочередно четные и нечетные поля, что вызывает ощущение «прыгающего» вверх и вниз изображения, так как четные и нечетные поля смещены относительно друг друга по вертикали на одну строку. На самом деле это вполне естественный эффект, обусловленный чересстрочной разверткой, а не ошибка при воспроизведении, как иногда считают. (Такой режим отображения производители зачастую пытаются выдать за собственную уникальную разработку. Будьте внимательны, на российском рынке он фигурирует под разными названиями (режим «казино», ускоренная запись, запись 50 к/с и т. д. Прим. ред .) , но никаких особых преимуществ не предоставляет и никакой дополнительной информации, помимо той, что содержалась в видеосигнале, тоже не дает. При желании его можно получить самостоятельно, имея в наличии программу для обработки и редактирования видео.) Отметим, что раздельная запись и обработка четных и нечетных телевизионных полей приводит к значительному увеличению размера архива.
Рис. 9.17. Разница между телевизионным полем (слева) и полным кадром (справа)
Возможно, читатели уже задаются вопросом, как можно нормально отображать оцифрованное видео, записанное полями (720x288 для PAL или 720x240 для NTSC), на экране или при экспорте изображения.
Ответ прост. Это достигается дублированием каждой строки. (Это не всегда так, потому что существует несколько алгоритмов интерполяции недостающих строк. Эти алгоритмы отличаются визуальным качеством и ресурсоемкостью. Впрочем, нужно помнить, что никакая интерполяция не сможет повысить реальную детализацию изображения и дать нам новую информацию. Прим. ред .) Такой способ приводит еще к одному заметному эффекту, который выражается в появлении зубчатых границ на изображении.
Глаз человека более чувствителен к разрешению по горизонтали, чем в вертикальном направлении, и, вероятно, поэтому большинство производителей цифровых видеорегистраторов предпочитают запись полями. Впрочем, в некоторых случаях вертикальное разрешение для нас оказывается важным, и тогда следует вести запись полными кадрами. А в некоторых цифровых видеорегистраторах возможна только запись полями, что ограничивает нас в выборе.
Рис. 9.18. Изображение, на котором зафиксирован реальный похититель, экспортированное в формате BMP , (слева) и детализация полного кадра (вверху) и формата CIF (внизу).
Вышеописанный эффект чересстрочной «гребенки» проявляется в основном при использовании сжатия изображения JPEG или Wavelet, то есть без межкадрового сжатия когда телевизионные поля обрабатываются как отдельные статичные изображения.
Однако, если применяется сжатие видеоизображения, то есть присутствует межкадровое сжатие, (например, семейство MPEG и Н.26х), то эффект чересстрочной «гребенки» частично компенсируется в процессе вычисления векторов предсказания движения и будет не так сильно заметен.
Все наши рассуждения до сих пор были применимы к так называемому полнокадровому разрешению. Но существуют стандарты сжатия изображения, которые используют в 4 раза меньшее количество пикселов (то есть 352x288 или 352x240 пикселов), чем содержится в полном кадре. Такой формат кадра обычно называется CIF (Общий формат обмена видеоданными, Common Interchange Format ) и, как правило, используется стандартами сжатия MPEG‑1 и Н.261. Это делается для того, чтобы уменьшить поток данных до приемлемого для видеоконференций уровня, который сопоставим по качеству изображения с VHS. Когда речь идет о разрешении систем видеонаблюдения, использующих сжатие MPEG‑1, Н.261 с форматом кадра CIF, все вышеприведенные вычисления будут применимы и в этом случае, но их нужно будет разделить пополам. Таким образом, эквивалентным аналоговым разрешением для формата CIF будет примерно 220 ТВ‑линий. Формат CIF содержит в четыре раза меньше пикселов, чем полный кадр в рекомендации ITU‑601 (в два раза меньше пикселов по вертикали и по горизонтали). Для многих областей применения качества CIF будет вполне достаточно, а скорость обновления кадров при записи и передаче возрастает. Это будет особенно полезно при организации видеоконференций, для которых изначально и создавался этот формат. Разрешение формата CIF до сжатия сопоставимо с разрешением аналогового видео VHS (240 ТВ‑линий). Это необходимо учитывать при проектировании систем видеонаблюдения, где требуется распознавание лица и автомобильных номеров. Иногда формат полного кадра ITU‑601 называют 4CIF, подчеркивая, что количество пикселов здесь в четыре раза больше, чем в формате CIF. Также существует и формат QCIF (Quarter CIF ), в котором содержится в четыре раза меньше пикселов, чем в формате CIF (то есть 176x144 пиксела).
Рис. 9.19. Сегодня на рынке присутствует огромное количество цифровых видеорегистраторов
Вполне очевидно, что мы стремимся получить максимально высокое качество изображения, но нужно понимать, что, независимо от наших действий, качество сжатого изображения никогда не будет выше, чем у несжатого. Количество пикселов, которое содержится в оцифрованном изображении от любой телекамеры с аналоговым видеосигналом, даже при записи полного кадра составит в лучшем случае всего около 415000 пикселов для PAL и 345000 для NTSC. Чтобы показать, много это или мало, достаточно в качестве примера вспомнить о современных цифровых фотоаппаратах (например, фотоаппарат, у которого заявлено 4000000 пикселов). Поэтому, когда заказчик спрашивает о причине пикселизации при увеличении кадра, экспортированного с цифрового видеорегистратора, ответ будет простым: таково количество пикселов в оцифрованном изображении. Телекамеры, используемые в видеонаблюдении, дают нам такие кадры, которые имеют значительно более низкое разрешение, чем кадры, полученные с помощью пленочного или цифрового фотоаппарата, а поэтому их не стоит и сравнивать.
Таким образом, когда вы собираетесь проектировать систему видеонаблюдения, от которой требуется возможность распознавания лиц и автомобильных номеров, то следует брать в расчет и количество пикселов в оцифрованном изображении. Об этом мы еще поговорим в конце этой главы, где будет дано несколько рекомендаций по проектированию таких систем видеонаблюдения.
Рис. 9.20. Аналого‑цифровое преобразование сигнала и его передача в типичной цифровой системе видеонаблюдения
Дата добавления: 2016-01-30; просмотров: 1128;