Принцип формирования информационного пакета
Стандарт MPEG 2 предоставляет возможность формирования трех видов цифровых потоков:
· элементарного пакетированного потока,
· программного пакетированного информационного потока и
· транспортного пакетированного потока.
Определение «элементарный» означает, что цифровой поток состоит из одного вида информации: звукоданных, видеоданных или данных пользователя. Программный пакетированный информационный поток формируется внутренним мультиплексором, объединяющим в определенной последовательности элементарные пакетированные потоки сжатых видеоданных и элементарные пакетированные потоки сжатых звукоданных. На входы этого же мультиплексора подаются без сжатия служебные данные и синхрослова (см. рисунок 9).
Рисунок 9 - Принцип формирования информационного пакета
Системные часы кодера
Выходной буфер кодера производит с определенной скоростью кадры видеопоследовательности. Каждый из этих кадров произведен в некоторый момент времени. Каждый кодер имеет встроенные часы, поэтому моменты времени, когда производится тот или иной кадр, легко зафиксировать и передать с кодера на декодер. Зачем это нужно?
Очень просто — декодер должен декодировать кадры с той же скоростью, с которой кодер их производит. Кроме того, кодер должен выдавать их в правильной последовательности. На скорость кодера и декодера может влиять масса факторов — от напряжения в сети до температуры в помещении, поэтому их работу необходимо синхронизировать. Кроме того, канал связи может иметь переменную задержку и какую-то собственную буферизацию, т. е. скорость потока на входе декодера может непредсказуемо меняться (см. разд. 1.11).
В стандарте элементарных потоков имеется два значения, которые принимают участие в процессе синхронизации — они называются временными штампами DTC и PTS. Кроме того, может возникнуть необходимость передавать с кодера на декодер показания системных часов кодера. Это делается при помощи поля PCR. Поле PCR мы будем рассматривать в гл. 5, посвященной транспортному потоку. Мы будем встречать эти значения, когда начнем рассматривать синтаксис элементарного потока.
Значение имеют даже не сами показания этих часов, а разницы показаний для разных кадров или моментов времени, поскольку нам необходимо синхронизировать скорость обработки информации.
Временной штамп декодера (Decoder Timestamp или DTC) — это время системных часов, в которое кадр должен быть взят из входного буфера декодера и декодирован. Принимается, что такую операцию можно совершить мгновенно. Таким образом, DTS показывает время, в которое кадр надо декодировать и положить в выходной буфер декодера.
Временной штамп показа (Presentation Timestamp или PTS) — это время системных часов, в которое кадр нужно показать зрителю, т. е. отправить из выходного буфера декодера на устройство воспроизведения (например, на кодер PAL или интерфейс HDMI). Мы говорили в предыдущем разделе, что время показа может не соответствовать времени декодирования, поэтому PTS не всегда соответствует DTS. Например, при наличии В-кадров, время декодирования Р-кадров будет раньше, чем время их презентации.
Системные часы имеют тактовую частоту 27 МГц, т. е. "тикают" 1 раз в 3,7x10-8 сек. Этого более чем достаточно для синхронизации. Для хранения значения системных часов обычно используется 32 бита, поэтому значения системных часов при этой частоте повторяются каждые 158 сек.
Для передачи от кодера к декодеру значения системных часов делятся на две части — базовую и дополнительную (см. разд. 5.2).
Зная значение DTS и PTS, декодер сможет "рассчитать" скорость, с которой нужно производить декодирование, и работать с этой скоростью. В H.264 применена несколько другая система синхронизации, основанная на использовании служебной информации, которая называется HRD (см. разд. 4.6).
Изменение порядка кадров в элементарном потоке
Внутренний мультиплексор из элементарных потоков формирует информационную часть — блок цифрового пакета фиксированной длины в 187 байтов и синхрослово в 1 байт.
Информационная часть затем дополняется головной частью и байтами кода Рида-Соломона, обеспечивающими защиту от ошибок блока информационных байтов (см. рисунок 10).
Рисунок 10 - Структура пакета транспортного потока информационных данных с защитой от ошибок кодом Рида-Соломона
Головная часть (до 200 байтов) содержит управляющие коды и включает в себя:
- один байт стартового кода, подготавливающий приемное устройство к началу приема данных;
- коды коррекции ошибочных битов (сверточные и т.п.); биты данных пользователя;
- биты идентификации, предназначенные для распознавания видео- и аудиоинформации в пакете;
- биты флага данных, несущие информацию о скремблировании (закрытости) канала, его приоритете;
- данные, указывающие на длину заголовка пакета, содержащего до 200 байтов. Они отмечают число байтов, которые могут присутствовать до начала передачи информационной части пакета.
Кодированные данные изображения и звука, а также различная дополнительная информация объединяются в мультиплексоре в единый поток данных: это по сути программный мультиплексор.
Эта часть аппаратуры цифрового ТВ составляет подсистему кодирования источника информации и мультиплексирования. Ее функция — максимально сжать информационный поток источника.
Объединение нескольких ТВ программ (1, 2, 3) в транспортный поток осуществляется в транспортном мультиплексоре (рис. 11).
Рисунок 11 – Формирование транспортного потока
Стандарт кодирования видео- и звуковой информации MPEG-4
До недавнего времени в вещании преобладала концепция «телевидения» программа готовилась в студии и передавалась как периодическая последовательность строк изображения и сопутствующих звуков. Все усовершенствования, включая появление цифрового вещания и стандарта MPEG-2, не изменили эту концепцию в корне, хотя добавили к ней некоторые новые аспекты — многопрограммность, подписку, дополнительные услуги, зачатки интерактивности.
В последние годы мультимедийные и графические средства все чаще вторгаются в область классического ТВ вещания, которое, в свою очередь, проникает в сферу мультимедиа (значительная часть ТВ и звуковых программ транслируется в Интернете, иногда в специальных Интернет-версиях). Аудиовизуальное содержание все чаще используется в интерактивных приложениях, таких, например, как игры или дистанционное обучение. Заметно размывается граница между компьютерными изображениями, виртуальной реальностью и телевидением. Все чаще возникает необходимость перемещать один и тот же контент из одной сети в другую, из одной сферы в другую, и требуются унифицированные форматы представления и передачи информации.
Все эти факторы сформировали потребность в едином стандарте, который бы определял формат представления аудиовизуальной информации, совместимый с любой средой распространения, и механизмы интерактивного взаимодействия с мультимедийным контентом. В стандарте должны быть предусмотрены возможности передачи различных видов видео- и аудиоданных — текста, графики, двумерных (2D) и трехмерных (3D) изображений, натурального и синтезированного видео и аудио, в потоковой форме или в виде загружаемых файлов. Именно эти задачи решает стандарт MPEG-4 «Информационные технологии — Обобщенное кодирование аудиовизуальных объектов»
MPEG-4 является стандартом ISO/IEC, разработанным комитетом MPEG (Moving Picture Experts Group.
Стандарт MPEG-4 охватывает следующие области:
· цифровое телевидение и видеосвязь;
· интерактивную графику, синтез изображений;
· интерактивные мультимедийные приложения, в том числе передаваемые через Интернет.
Тенденция последних лет сближение, слияние этих источников аудиовизуальной информации, появление новых источников как натурального, так и синтезированного контента (содержания).
Стандарт MPEG-4 позволяет передавать и записывать в различные ЗУ видео- и звуковую информацию с очень большими коэффициентами сжатия. Первоначально он создавался для передачи движущихся изображений и звука по узкополосным каналам связи, что необходимо как в системах видеосвязи при использовании обычных телефонных сетей и относительно низкоскоростных цифровых каналов (64 кбит/с), так и для передачи через Интернет. В настоящее время MPEG-4 получил широкое распространение как средство записи кинофильмов и видеопрограмм на лазерные диски. Кроме того, новый стандарт обеспечивает интерактивность, т.е. возможность для пользователя управлять процессом передачи ему информации путем запросов, выбора вариантов и других действий.
Объекты и сцены
Важнейшей особенностью MPEG-4 является объектно-ориентированныйподход, сущность которого заключается в том, что передаваемое изображение со звуковым сопровождением представляется как совокупность видео- и/или аудио- объектов (медиа-объектов).
Видеообъектами (VO - visual object) могут быть изображения людей и предметов, перемещающихся перед неподвижным фоном, и сам неподвижный фон. Обычное телевизионное изображение может быть единым видеообъектом.
Аудиообъектами (АО - audio object) могут быть голоса людей, музыка, другие звуки.
Связанные видео- и аудиообъекты, например, изображение человека и его голос, образуют аудио-визуальный объект (AVOs - audio-visual object).
Любая сцена разделяется на объекты, которые соотносятся в пространстве и времени и описываются отдельными элементарными потоками (ЭП). Объекты могут быть натуральными – записанными с видеокамеры или микрофона, и синтетическими – синтезированными в компьютере.
BIFS
Для описания сцены и ее динамического изменения в MPEG-4 используется специально разработанный двоичный язык BIFS (Binary Format for Scenes двоичный формат описания сцен).
Описание сцены указывает декодеру, где и когда воспроизводить объекты, входящие в сцену, и как реагировать на воздействие пользователя.
Чтобы увязать ЭП с медиа-объектами в сцене, используются дескрипторы объекта. Они переносят информацию о числе и свойствах ЭП, связанных с конкретными медиа-объектами. Сами дескрипторы также переносятся в одном или нескольких ЭП, поэтому нетрудно добавить или удалить объект во время сеанса.
Основные принципы BIFS заимствованы из языка VRML (Virtual Reality Modelling Language — язык моделирования виртуальной реальности), разработанного для создания 3D графики. Это широко распространенный и в значительной степени бесплатный язык программирования, точнее, эффективный 3D формат обмена, как бы объемный аналог HTML.
Язык BIFS позаимствовал у VRML структуру описания сцены в виде графа, модели поведения, графические примитивы для построения 3D-изображений: конусы, сферы, сетки, текстовые примитивы, текстурирование и подсветку (всего их 36).
Дата добавления: 2015-10-19; просмотров: 1065;