Стандарти кодування відео MPEG

MPEG-1. Опублікований в 1991 р. і прийнятий в 1993 р. Розрахований на 486 машини і 2-швидкісні CDROM. Тому алгоритм обмежував швидкість передачі даних діапазоном 150..225 кбайт/с (швидкість читання 2x CDROM). Зображення мало роздільну здатність 320Ч240 пікселів при частоті 30 кадрів/с.

Використовувався потоковий стиск відео, коли аналізується динаміка зміни зображень на сусідніх кадрах. За рахунок цього усуваються надлишкові дані, бо в більшості зображень події відбуваються на попередньому плані. MPEG-1 починає стиск з створення ключового або базового кадру (I-кадру). I-кадри відіграють роль опорних при відновленні решти кадрів зображень і розміщуються послідовно через кожні 10-15 кадрів. Тільки деякі фрагменти зображення між I-кадрами зазнають зміни. Саме ця різниця зберігається при стиску. Крім I-кадрів в MPEGпослідовності є ще 2 типи зображень:

1) predicted- передбачувані (P-) кадри - містять різницю поточного кадру відносно попереднього I- або P-кадру з врахуванням зсувів окремих фрагментів;

2) bi-directional - двонаправлені (B-) кадри - містять посилання як на попередні, так і на наступні кадри типу I та P з врахуванням зсувів окремих елементів.

Доступ до уривку відео здійснюється через I-кадри, але власне I-кадри мають досить низький коефіцієнт стиску. P-кадри кодуються відносно попередніх I- або P-кадрів і в цьому випадку досягається високий коефіцієнт стиску. B-кадри забезпечують найвищий коефіцієнт стиску. Для їх прив’язки потрібні і наступні і попередні кадри. Зображення об’єднуються в групи GOP (Group of pictures), що є мінімальним набором послідовних зображень і типовою є група

Окремі зображення складаються з структурних одиниць - макроблоків, що відповідають деякій ділянці зображення 16х16 пікселів. Під час аналізу зображення (базовий і наступний кадри) шукаються подібні макроблоки . За допомогою так званого вектору зсуву зберігаються лише дані про різницю між кадрами.

Оскільки макроблоки, які відповідають сусіднім зображенням, зміщуються в площині зображення, то зберігається лише напрямок зміщення - різниця між кадрами. Макроблоки, що не зазнають змін, ігноруються, що істотно зменшує кількість даних. Макроблоки є базовими операційними одиницями і над ними здійснюються основні операції, в тому числі дискретне косинусне перетворення. Сам макроблок складається з 6 частин, 4 з яких - чорно-біле зображення Y-компонента, 1 - U-компонент і 1 - V-компонент.

Стандарт MPEG-1 включає 4 частини:

§ IS-11172-1: System - визначає синхронізацію і упаковку Video і Audio,

§ IS-11172-2: Video - визначає стиск відеосигналу,

§ IS-11172-3: Audio - визначає стиск аудіосигналу,

§ IS-11172-4: Test - задає тестування відповідності системи.

В Audio визначається сімейство схем стиску аудіоданих Layer - 1, 2 , 3 (в напрямку покращення якості звуку). Причому Layer-3 включає в себе рівні 1 та 2. Декодер Layer-3 може відтворювати потоки 1, 2, 3 разом.

MP3 - за визначенням MPEG-1 - це Layer-3 в IS-11172-3.

MPEG-2. Прийнятий в 1994 р. і визначає стандарт відео і звуку при інтенсивності потоку від

2 до 10 Мбайт/с. Підтримує вищу роздільну здатність, ніж MPEG-1, в тому числі 720х480 пікселів,

що відповідає стандартним TV-системам, та 1280х720 пікселів - High Definition Television

(HDTV). Використовується в новому поколінні DVD-дисків.

На відміну від MPEG-1 не обов’язковою є GOP - можна отримати доступ до довільного кадру. Використовується в цифровому кабельному та супутниковому телебаченні. Для стиску звуку використовується той самий метод Layer - 1, 2, 3.

MPEG-3. Розроблявся для телебачення високої чіткості HDTV, але виявилось, що MPEG-1 і MPEG-2 повністю задовільняють ці задачі. Тому проект закрили.

MPEG-4 - об’єктно-орієнтоване мультимедіа. Затверджений в 1999 р. Розроблявся як засіб передачі потокових медіа-даних і в першу чергу відеозображень по каналах з низькою пропускною здатністю, наприклад 4.8 .. 64 кбіт/с - можливості звичайних модемів.

Нове призначення MPEG-4 - він задає принципи роботи з контентом - цифровим

представленням медіа-даних для 3-х областей:

§ інтерактивного мультимедіа,

§ графічних аплікацій (синтезованого контенту),

§ цифрового телебачення DTV.

Поглинув в себе всі попередні стандарти кодування.

В цьому стандарті задній та передній плани і рухливі об’єкти розділені на окремі об’єкти. Є сплайн (образ чогось) і координати переміщення. Зображення передається не об’єктом, а описом в спеціальній мові. Можна міняти точку спостереження. Кожний об’єкт існує окремо - можна задати візуалізазацію якогось об’єкту. Алгоритмів нема - є задання середовища, що працює. Якщо процесор не справляється, зображення буде йти все одно, але з гіршою якістю.

MPEG-4 фактично задає правила об’єктно-орієнтованого середовища. Ключовими поняттями є медіа-об’єкти - аудіо, відео, графічні (2- і 3-вимірні) і текстові. Об’єкти можуть бути як природніми, тобто знятими з відеокамери або сканера, так і синтезованими, тобто штучно створеними засобами комп’ютерної графіки та обробки:

§ нерухомий задній фон,

§ відеоперсонажі, які діють на передньому плані окремо від фону,

§ синтезована на основі тексту промова,

§ тривимірна каркасна модель, яку можна рухати в тривимірному просторі.

Кожний об’єкт в сцені має свої властивості, які задаються за допомогою дескриптора. З об’єктів будують власне сцени. Кожна сцена має свою систему координат. Кожен об’єкт теж має свою систему координат. Об’єкти можуть бути як елементарними, так і складними.

В MPEG-4 визначена своя мова опису об’єктів, яка називається BIFS. Ця мова за своєю структурою подібна на C++. Багато концепцій взято з Virtual Reality Makeup Language. Сама сцена описується ієрархічною структурою, де вузлами цієї структури є об’єкти і відповідно ця структура перебудовується в залежності від зміни - додавання або видалення об’єктів.

MPEG-4 був запропонований ще для того, щоби передавати цифровий телевізійний сигнал.

Головна відмінність MPEG-4 - це те, що остаточне складання сцени відбувається на кінцевому

пристрої - комп’ютері або відеоприставці. Тому існує можливість направлено накладати на

зображення різні ефекти, задавати параметри окремих об’єктів або здійснювати зворотній зв’язок. Може змінити в майбутньому всю концепцію телебачення. Глядач може впливати на перегляд відеозображення. Команди користувача, на які повинен зреагувати пристрій декодування, можуть бути складнішими - зміна точки спостереження, видалення певних об’єктів, зміна мови для конкретного персонажа. Але зміни мають бути передбачені авторами фільму. Для створення зворотнього зв’язку користувацька сторона може передавати зворотні дані на сервер.

Кодування відео в MPEG-4. Підтримується багато методів: MPEG-1 і MPEG-2 є підмножиною MPEG-4. Ядро, яке було (для низької пропускної здатності), залишилось при розробці. Але блок кодування відео залежить від контенту (вмістимого сцени) - виконується робота із сплайнами: задається тільки об’єкт і координати переміщення, а при переміщенні точки спостереження переміщується задній фон. Для того, щоби можна було нормально відтворювати зображення при низькій пропускній здатності каналу, або у випадку низької обчислювальної потужності декодеру, стандарт MPEG-4 дозволяє генерувати зображення сцени з частини даних потоку. При цьому зменшується роздільна здатність генерованого зображення, але залишається його адекватність сцені. Для кодування статичних зображень використовується алгоритм, побудований на хвильовому перетворенні.

Синтезовані об’єкти та обличчя. Передбачена робота з синтезованими об’єктами,

згенерованими засобами комп’ютерної графіки: каркасне представлення 2- та 3-вимірних моделей, дані для анімації цих моделей (як рухати каркаси), та текстури, що накладаються на каркасні моделі.

Синтезовані моделі значно зменшують об’єм даних, що необхідно надати декодеру. Серед анімованих об’єктів особливе місце займає анімація людських облич та фігур. Задається каркасна сітка, яка відповідає за рухи або емоції людини. Також засобами синтезу промови на базі текстової інформації дозволяється створювати фонеми (звук) і відповідні анімаційні моделі особи, що говорить. Це дозволяє згенерувати обличчя конкретної особи, як каркас, натягнути на каркас текстуру і примусити цю модель говорити - міняти форму обличчя.

Звук теж є об’єктом операцій. Кожному об’єкту на сцені можна прописати свою

аудіодоріжку. Звук обчислюється відповідно до властивостей об’єкта. Є синтез мови -

використовується у віртуальних відеоконференціях. Використовується стиск MP3.

<65 66 676869 70 71 >

Дата добавления: 2014-12-08; просмотров: 1590;