Параметры аналого-цифрового преобразования видеосигнала
Основной интерфейс видеомагнитофонов формата DV – аналоговый. Поэтому стандарт DV регламентирует параметры аналого-цифрового преобразования входного видеосигнала: структуру дискретизации, частоты дискретизации яркостного и цветоразностных компонентов телевизионного изображения, число уровней квантования. В качестве прототипа используется структура дискретизации, задаваемая Рекомендацией ITU-R BT.601, в соответствии с которой яркостный компонент Y каждой телевизионной строки дискретизируется с частотой 13,5 МГц, цветоразностные сигналы Cr и Cb – с частотой 6,75 МГц, а квантование производится с использованием 10 битов на отсчет. Скорость потока данных составляет при этом 10 x 13,5 + 10 x 6,75 x 2 = 270 Мбит/с.
Выбор параметров аналого-цифрового преобразования телевизионного изображения в формате DV подчинен целям уменьшения объема данных, подлежащих записи. За счет перехода к квантованию с расходом 8 бит/отсчет (т.е. ценой увеличения шумов квантования на 12 дБ) можно сократить записываемый поток на 20 %. Поток данных можно уменьшить также за счет исключения обратного хода и перехода к записи телевизионного сигнала в пределах активной части растра. Тогда можно записывать только по 720 отсчетов сигнала Y и по 360 – Cr и Cb в каждой из 576 (при разложении изображения на 625 строк и частоте полей 50 Гц, далее обозначаемом как стандарт 625/50) или 480 (при разложении изображения на 525 строк и частоте полей 59,94 Гц, далее обозначаемом как стандарт 525/60) активных строк растра. В сочетании с переходом к квантованию с расходом 8 бит/отсчет это позволяет сократить записываемый поток с 270 Мбит/с до 8 x (720 + 360 x 2) x 576 x 25 = 8 x (720 + 360 x 2) x 480 x х 30 = 165,888 Мбит/с. Надо отметить, что для системы разложения 525/60 точное значение скорости потока отличается коэффициентом 30 / 29,97 = 1,001.
Доведение потока данных 166 Мбит/с до заданной величины 25 Мбит/с с использованием внутрикадрового кодирования было бы связано с довольно значительным уровнем искажений и артефактов. Теория и практика видеокомпрессии доказывают, что наилучшего результата можно достичь за счет сочетания компрессии с предваряющей ее обработкой, заключающейся в сглаживании телевизионного изображения. Ценой некоторой потери четкости изображения можно уменьшить уровень искажений и артефактов, вызываемых необратимыми потерями данных при компрессии, и добиться более высокого качества сжатого изображения.
1.3.3 Структура дискретизации 4:1:1
Рекомендация МККР №601 определяет соотношение частот дискретизации яркостного и цветоразностных сигналов как 4:2:2. Это означает, что полоса частот яркостного сигнала должна быть в два раза больше полосы каждого из цветоразностных. В аналоговом телевидении это соотношение значительно больше. Если исходить из того, что основным входным сигналом видеомагнитофона DV является аналоговый сигнал, то полосу частот цветоразностных сигналов можно сократить. Если уменьшить полосу частот цветоразностных сигналов еще в два раза (по отношению к полосе, устанавливаемой Рекомендацией 601), то можно сократить в два раза и частоту дискретизации Cr и Cb, переходя к структуре дискретизации 4:1:1 и доводя число отсчетов Cr и Cb до 180 в каждой строке (рис. 23).
Рис. 23. Структура дискретизации 4:1:1
Четкость в цвете по горизонтали при этом уменьшается в два раза, но яркостная четкость остается неизменной. Переход к структуре дискретизации 4:1:1 позволяет довести поток видеоданных до 8 x (720 + + 180 x х 2) x 576 x 25 = 8 x (720 + 180 x 2) x 480 x 30 = 124,416 Мбит/с.
1.3.4 Структуры дискретизации 4:2:0
Другой возможный вариант сокращения потока данных сводится к двукратному (в сравнении с форматом 4:2:2) уменьшению четкости цветных деталей в вертикальном направлении. Такой подход позволяет выровнять цветовую четкость в вертикальном и горизонтальном направлениях. При переходе к используемому в системе MPEG-2 формату 4:2:0 (рис. 24) матрицы отсчетов цветоразностных компонентов телевизионного изображения имеют размеры 360x288 (625/50) или 360x240 (525/60), что дает такую же, как и в случае формата 4:1:1, величину потока данных: 8 x (720 x 576 + 360 x 288 x 2) x 25 = 8 x (720 x 480 + 360 x 240 x 2) x 30 = = 124,416 Мбит/с.
Отсчеты цветоразностных компонентов в формате 4:2:0, принятом в системе компрессии MPEG-2, не совмещены с отсчетами яркостной составляющей. Надо отметить, что преобразование формата 4:2:2 в формат 4:1:1 может осуществляться за счет отбрасывания каждого второго отсчета цветоразностных компонентов (конечно, в сочетании с предварительной низкочастотной фильтрацией цветоразностных компонентов). Но нельзя поступить аналогичным образом и просто исключить часть отсчетов при преобразовании структуры 4:2:2 в формат 4:2:0. Если отбросить цветоразностные отсчеты в каждой второй строке телевизионного кадра, то одно поле вообще не будет участвовать в формировании цветного изображения. Это означало бы не только двукратное уменьшение цветовой четкости по вертикали, но и двукратное уменьшение временной разрешающей способности по отношению к цветным деталям изображения. Поэтому матрица отсчетов цветоразностных компонентов образована точками, которые не находятся на строках телевизионного изображения и не совпадают с яркостными отсчетами ни одного из двух полей (рис. 24), хотя половина из них рассчитывается с использованием интерполяции из отсчетов строк одного поля, а половина – другого. Необходимость такой интерполяции усложняет формирование потока видеоданных.
Вариант формата 4:2:0, в котором уменьшается цветовая четкость по вертикали, но отсчеты цветоразностных компонентов совмещены с отсчетами яркостной составляющей изображения, может быть получен из прототипной структуры 4:2:2 путем поочередного исключения одного цветоразностного компонента в каждой второй строке каждого поля (рис. 25). Это означает, что в двух строках телевизионного кадра следуют отсчеты Y/Cr, Y, Y/Cr,…, в двух следующих – Y/Cb, Y, Y/Cb,…, затем – снова Y/Cr, Y, Y/Cr,… и т.д. Именно такой вариант формата 4:2:0, упрощающий формирование цветоразностных сигналов, устанавливается стандартом DV.
Рис. 24. Структура дискретизации 4:2:0 (MPEG-2)
В случае использования форматов 4:1:1 и 4:2:0 степень компрессии, необходимая для доведения скорости потока данных до 25 Мбит/с, составит приблизительно 5:1. Надо отметить, что для исключения искажений дискретизации все компоненты телевизионного изображения должны быть подвергнуты предварительной двухмерной фильтрации в соответствии с частотами дискретизации, заданными для горизонтального и вертикального направлений.
Рис. 25. Структура дискретизации 4:2:0 с совмещенными отсчетами яркостного и цветоразностных сигналов 4:1:1 или 4:2:0
Стандарт DV устанавливает использование формата 4:1:1 для системы 525/60, а формата 4:2:0 – для 625/50. Для того, чтобы понять предпосылки такого решения, целесообразно сначала оценить соотношение четкости по вертикали и горизонтали в цифровом изображении, устанавливаемом Рекомендацией 601. Формат стандартного телевизионного изображения, или отношение ширины изображения к его высоте, равен 4/3. Если исходить из требования одинаковой четкости по горизонтали и вертикали, то при разложении телевизионного изображения на 625 строк (576 активных строк) каждая строка должна содержать 576 x 4/3 =768 пикселей, а при разложении на 525 строк (480 активных строк) – 480 x 4/3 = 640 пикселей. Но активная часть строки в соответствии с Рекомендацией 601, содержит 720 пикселей как для системы 625/50, так и для системы 525/60. Это означает, что пиксель не является квадратным ни в системе 625/50, ни в системе 525/60, и что четкость в горизонтальном и вертикальном направлениях не является одинаковой. В системе 625/50 фактический пиксель вытянут в горизонтальном направлении (его формат можно оценить числом 1,07), и четкость по горизонтали хуже, чем по вертикали. В системе 525/60 пиксель сжат в горизонтальном направлении (его формат равен 0,89), и четкость в горизонтальном направлении лучше, чем в вертикальном.
Приведенные расчеты не учитывают влияния чересстрочности телевизионного изображения, однако из них следует главный вывод: в системе 625/50 ощущается некоторый недостаток горизонтальной четкости (в сравнении с вертикальной), а в системе 525/60 – вертикальной (в сравнении с горизонтальной). Поэтому структура дискретизации 4:1:1, ухудшающая горизонтальную четкость в цвете, оказывается менее приемлемой для системы 625/50, чем структура 4:2:0. Можно отметить также, что структура 4:2:0, ухудшающая четкость в цвете по вертикали, является для системы 525/60 менее подходящей, чем структура 4:1:1. Сыграла свою роль, несомненно, и разница в абсолютных значениях числа строк, определяющая различие в вертикальной четкости в системах телевидения с 625 и 525 строками.
Известна также трактовка установленного стандартом DV правила выбора структур дискретизации, связанная с наследованием показателей систем аналогового телевидения. В системах PAL и SECAM, используемых в странах со стандартом разложения 625/50, вертикальная цветовая четкость хуже, а горизонтальная – лучше, чем в системе NTSC, применяемой в странах со стандартом 525/60. Поэтому изображения в формате DV выглядят немного похожими на своих аналоговых предшественников.
1.3.5 Дискретно-косинусное преобразование: формирование макроблоков
Дискретно-косинусное преобразование всех компонентов телевизионного изображения является блочным. Оно выполняется в рамках массива пикселей с размерами 8x8 элементов, называемого блоком DCT. В каждый блок DCT входят строки двух полей телевизионного кадра. Нечетные строки блока образованы отсчетами, располагающимися в строках первого поля, четные – в строках второго поля (надо иметь в виду, что нумерация строк начинается с нуля, поэтому самая верхняя строка блока DCT, имеющая номер 0, образована пикселями второго, или четного, поля). При структуре дискретизации 4:1:1 один массив отсчетов каждого из цветоразностных сигналов с размерами 8x8 элементов может быть сформирован из фрагмента телевизионного кадра с высотой 8 строк и шириной 32 яркостных пикселя (рис. 26). В пределах такой области можно образовать четыре блока DCT яркостного компонента Y и по одному блоку DCT цветоразностных сигналов Cr и Cb. Эти шесть блоков входят в макроблок – важный элемент иерархической структуры цифрового изображения формата DV. В случае использования дискретизации 4:2:0 один макроблок формируется из квадратного массива отсчетов, образованного 16 последовательными строками кадра (рис. 27). Пять макроблоков, взятых из различных областей телевизионного кадра, образуют видеосегмент – объект основных операций видеокомпрессии, показанных на рис. 24.
Рис. 26. Макроблок формата 4:1:1
Рис. 27. Макроблок формата 4:2:1
1.3.6 Дискретно-косинусное преобразование: декорреляция
Известно, что коэффициент корреляции соседних элементов типичного телевизионного изображения близок к единице, т.е. велика вероятность того, что уровни сигнала соседних пикселей одинаковы. Дискретно-косинусное преобразование является средством декорреляции, которая позволяет описать блок отсчетов из 64 пикселей с использованием меньшего числа коэффициентов DCT. Например, фрагмент изображения из 64 пикселей, в пределах которого яркость меняется в горизонтальном направлении скачком от 100 единиц (уровней квантования) до нуля (рис. 28), может быть однозначно описан с использованием всего пяти коэффициентов DCT: постоянной составляющей DC (Direct Current) и четырех амплитуд базисных функций дискретно-косинусного преобразования с номерами, или индексами, пространственных частот горизонтального направления fh = 1, 3, 5, 7. Поскольку в вертикальном направлении яркость не меняется, то амплитуды всех базисных функций с номерами, или индексами пространственных частот вертикального направления fv > 0 равны нулю. Первая базисная функция (fh = 1) одномерного дискретно-косинусного преобразования является результатом дискретизации половины периода косинусоиды, сдвинутой влево на половину интервала дискретизации (рис. 29). На интервал вычисления одномерного дискретно-косинусного преобразования (8 пикселей) приходится один период дискретизированной косинусоиды для базисной функции с номером 2 (fh = 2), полтора периода – для базисной функции с номером 3 (fh = 3) и т.д. Результатом дискретно-косинусного преобразования является массив действительных чисел, которые могут быть положительными и отрицательными, что соответствует присутствию в спектре базисных функций, суммируемых со знаком плюс или минус соответственно. На рис. 28 результаты дискретно-косинусного преобразования показаны для упрощения по абсолютной величине, т.е. в виде амплитудного спектра. Суммирование постоянной составляющей и четырех базисных функций, взятых с соответствующими амплитудами и знаками (C (1,0), C (3,0), C (5,0) и C (7,0)), позволяет восстановить исходное распределение яркости при воспроизведении. Таким образом, замена отсчетов сигнала коэффициентами DCT позволяет значительно сократить объем записываемых данных.
a б
Рис. 28. Блок статического изображения, содержащий перепад яркости а) и его частотный спектр б) (fh, fv - пространственные частоты горизонтального и вертикального направлений; С(fh, fv) - коэффициенты дискретно-косинусного преобразования 8-8-DCT)
Приведенные выше рассуждения, позволившие сделать оптимистический вывод о возможности значительного сокращения объема данных с использованием дискретно-косинусного преобразования, требуют уточнения, связанного с чересстрочной разверткой. Изображение, показанное на рис. 28, является статическим. А типичными для телевидения являются изображения движущихся объектов. Кадр изображения образуется двумя полями, следующими друг за другом с интервалом 1/50 или 1/60 с. Если объект изображения движется, и граница между белым и черным участками смещается слева направо, то картинка (рис. 28) превратится в изображение, показанное на рис. 30 (скорость смещения границы равна одному пикселю за поле). Даже такое небольшое движение вызвало "зазубривание" контура, в результате чего число значимых коэффициентов DCT возросло во много раз в сравнении со статическим вариантом, показанным на рис. 28.
Рис. 29. Базисные функции дискретно-косинусного преобразования
a б
Рис. 30. Блок динамического изображения, содержащий перепад яркости а) и его частотный спектр б) (fh, fv - пространственные частоты горизонтального и вертикального направлений; С(fh, fv) - коэффициенты дискретно-косинусного преобразования 8-8-DCT)
Стандарт DV предлагает эффективное и сравнительно простое решение проблемы при сохранении внутрикадрового кодирования. Сначала блок элементов изображения с размерами 8x8 пикселей разбивается на два субблока, включающие в себя 4 строки по 8 пикселей, причем в один субблок 4-8 входят строки первого поля, а в другой – второго поля телевизионного кадра (рис. 31). Следующий этап: пиксели одноименных строк двух субблоков 4-8 складываются, образуя блок суммы полей, и вычитаются, образуя блок разности двух полей. Блоки суммы и разности подвергаются дискретно-косинусному преобразованию, в результате которого вычисляются две матрицы 4-8 коэффициентов DCT (общий объем двух матриц остается равным 64 коэффициентам). Движение объекта передачи, которое в случае использования матрицы 8-8 привело к зазубриванию контуров и резкому возрастанию числа значимых коэффициентов DCT, вызвало размытие границ между черным и белым участками на блоке пикселей суммы двух полей и появлению контура границы на блоке разности. Поэтому матрицы коэффициентов DCT двух блоков 4-8 содержат меньшее число значимых коэффициентов, чем одна матрица 8-8. Приведенная на рис. 31 схема обработки данных обратима. Выполняя обратное дискретно-косинусное преобразование над суммой и разностью двух матриц DCT 4-8, можно восстановить значения отсчетов, образующих четные и нечетные строки исходного блока пикселей.
Рис. 31. Дискретно-косинусное преобразование 2-4-8-DCT
Описанная схема обработки напоминает алгоритм дифференциальной импульсно-кодовой модуляции. Вместо одного поля передается сумма сигналов двух полей, а вместо второго – разность, которую можно рассматривать как ошибку предсказания. Если сигналы двух полей одинаковы, то разность обращается в ноль, то есть общий объем записываемых данных сокращается. Но эта аналогия лишь приблизительна. Ведь сигналы двух полей, разделенных интервалом времени в половину периода кадра, относятся к разным точкам пространства телевизионного кадра.
Преобразования по схеме (рис. 31) обратимы лишь при условии, что с коэффициентами DCT не происходит нелинейных трансформаций. Но квантование коэффициентов DCT, которое является непременным атрибутом видеокомпрессии, представляет собой нелинейное преобразование. Допустим, что значения части коэффициентов, в основном, высокочастотных, матрицы разности после квантования обратились в ноль. Тогда, после выполнения обратных преобразований, произойдет размытие вертикальных контуров объектов, причем величина размытия будет тем больше, чем больше горизонтальная составляющая скорости движения. Впрочем, это размытие может иметь даже полезный эффект, ведь оно маскирует расслоение двух полей и связанное с этим зазубривание вертикальных границ. Но потери четкости и резкости произойдут и в вертикальном направлении, причем даже для статического изображения. Это связано с тем, что для матрицы коэффициентов 4-8 максимальный номер собственной функции равен трем, что означает двукратное сокращение полосы пространственных частот по вертикали в восстанавливаемом изображении. Иными словами, если сигналы двух полей становятся почти одинаковыми (ведь многие коэффициенты матрицы разности, в основном, высокочастотные, в результате квантования могут обратиться в нуль), то это равносильно удвоению ширины строки.
Дискретно-косинусное преобразование по схеме 2-4-8 (рис. 31) должно использоваться лишь при больших различиях сигналов двух полей, т.е. при значительной динамике телевизионного изображения. Если изображение статично или почти статично (в рамках блока изображения с размерами 8x8 пикселей), то целесообразно использовать схему дискретно-косинусного преобразования 8-8 (рис. 28), поскольку в этом случае можно добиться более высокой четкости в вертикальном направлении. Поэтому в алгоритме видеокомпрессии стандарта DV (рис. 22) предусмотрена оценка движения, или степени динамичности изображения, на основе которой принимается решение о выборе режима DCT. Стандарт DV не регламентирует способ оценки движения, стимулируя, тем самым, усилия разработчиков, направленные на повышение качества декомпрессированного изображения. Но стандарт предусматривает возможность выбора оптимального режима дискретно-косинусного преобразования для каждого блока DCT, что делает алгоритм видеокомпрессии чрезвычайно гибким.
Дата добавления: 2016-05-05; просмотров: 1872;