MPEG2 та нелінійний монтаж - просто про складне - Кодеки, відео кодеки, аудіо кодеки, новинки

Рівні: низький LL (Low Level) з роздільною здатністю кадру 352х288 (відповідає MPEG1), основний ML (Main Level) 720х576, високий HL-1440 (High Level) 1440х1152 та високий HL-1921 192 Зазначимо, що якщо відповідно до рекомендації ITU-R BT.601 (International Telecommunications Union – Recommendation) основний рівень визначає дозвіл стандартного телевізійного кадру, то високі рівні орієнтовані на телебачення високої чіткості.

Профілі: простий SP (Simple Profile), основний MP (Main Profile), 2 масштабованих - по відношенню сигнал-шум SNR Scalable Profile і за роздільною здатністю Spatially Scalable Profile і, нарешті, високий HP (High Profile). Важливе місце також займає не визначений стандартом, але так званий основний професійний або, по-іншому, MPEG 422 профіль, що активно використовується в практиці. Його позначають як 422Р. Якщо з рівнями все зрозуміло, пояснення відмінностей профілів вимагає деякої підготовки.

У першій їх використовується експериментально встановлена мала чутливість людського сприйняття до спотворень дрібних деталей зображення. Око швидше зауважує неоднорідність рівномірного фону, ніж викривлення тонкої межі або зміна яскравості та кольору малої ділянки. З математики відомо два еквівалентні уявлення зображення: звичний нам просторовий розподіл яскравості та кольору і так званий частотний розподіл, пов'язаний із просторовим Дискретним Косинусним Перетворенням (ДКП). Теоретично вони рівнозначні і оборотні, але зберігають інформацію про структуру зображення абсолютно по-різному: передачу плавних змін фону забезпечують низькочастотні (центральні) значення частотного розподілу, а й за дрібні деталі просторовогорозподілу відповідають високочастотні коефіцієнти Це дозволяє використовувати наступний алгоритм стиснення. Кадр розбивається на блоки розміром 16х16 (розміру 720х576 відповідає 45х36 блоків), кожен із яких ДКП переводиться в частотну область. Потім відповідні частотні коефіцієнти піддаються квантування (округлення значень з інтервалом, що задається). Якщо саме собою ДКП не призводить до втрати даних, але квантування коефіцієнтів, очевидно, викликає огрубіння зображення. Операція квантування виконується зі змінним інтервалом – найбільш точно передається низькочастотна інформація, тоді як багато високочастотних коефіцієнтів набувають нульових значень. Це забезпечує значне стиснення потоку даних, але призводить до зниження ефективного дозволу та можливої появи незначних хибних деталей (зокрема, на межі блоків). Очевидно, що чим грубіше квантування використовується, тим більший ступінь стиснення, але і тим нижча якість результуючого сигналу.

Тимчасова MPEG-компресія використовує високу надмірність інформації у зображеннях, розділених малим інтервалом. Справді, між суміжними зображеннями зазвичай змінюється лише мала частина сцени – наприклад, відбувається плавне усунення невеликого об'єкта і натомість фіксованого заднього плану. У цьому випадку повну інформацію про сцену потрібно зберігати лише вибірково для опорних зображень. Для інших достатньо передавати лише різницеву інформацію: про становище об'єкта, напрям і величину його зміщення, про нові елементи фону (відкриваються за об'єктом у міру його руху). Причому ці різниці можна формувати не тільки в порівнянні з попередніми зображеннями, але і з наступними (оскільки саме в них у міру руху об'єкта відкривається частина фону, прихована раніше заоб'єктом). Зазначимо, що математично найбільш складним елементом є пошук блоків, що зміщуються, але мало змінюються по структурі (16х16) і визначення відповідних векторів їх зміщення. Однак це елемент найбільш суттєвий, оскільки дозволяє суттєво зменшити обсяг необхідної інформації. Саме ефективністю виконання цього "інтелектуального" елемента в реальному часі та відрізняються різні MPEG-кодери.

Таким чином, MPEG кодування принципово формуються три типи кадрів: I (Intra), що виконують роль опорних і зберігають повний обсяг інформації про структуру зображення; P (Predictive), що несуть інформацію про зміни у структурі зображення порівняно з попереднім кадром (типів I або P); B (Bi-directional), що зберігають тільки найбільш істотну частину інформацію про відмінності від попереднього та наступного зображень (тільки I або P). Принципова схема подальшої компресії I-кадрів, як і різницевих P- і B-кадрів, аналогічна MJPEG, але, як і в DV, з адаптивним підстроюванням таблиць квантування. Зокрема, це дозволяє охарактеризувати DV-сигнал як окремий випадок MPEG послідовності I-кадрів із заданим фіксованим потоком (коефіцієнтом компресії). Послідовності I-, P-, B-кадрів об'єднуються у фіксовані за довжиною та структурою групи кадрів - GOP (Group of Pictures). Кожна GOP обов'язково починається з I та з певною періодичністю містить P кадри. Її структуру описують як M/N, де M – загальна кількість кадрів групи, а N – інтервал між P-кадрами. Так, типова для Video-CD та DVD IPB група 15/3 має такий вигляд: IBBPBBPBBPBBPBB. Тут кожен B кадр відновлюється за оточуючими його кадрами (на початку і кінці групи - по I і Р), а в свою чергу кожен Р кадр - по попередньому Р (або I) кадру. В тежчас I кадри самодостатні і може бути відновлені незалежно від інших, але є опорними всім P і більше B кадрів групи. Відповідно у I і P найменша ступінь компресії, у – найбільша. Встановлено, що у розмірі типовий Р кадр становить 1/3 від I, а B – 1/8 частина.

В результаті MPEG послідовність IPPP (GOP 4/1) забезпечує 2-кратне зменшення необхідного потоку даних (при тій самій якості) порівняно з послідовністю тільки з I кадрів, а використання GOP 15/3 дозволяє досягти 4-кратного стиснення.