MPEG2 та нелінійний монтаж - просто про складне - Кодеки, відео кодеки, аудіо кодеки, новинки

Рівні: низький LL (Low Level) з роздільною здатністю кадру 352х288 (відповідає MPEG1), основний ML (Main Level) 720х576, високий HL-1440 (High Level) 1440х1152 та високий HL-1921 192 Зазначимо, що якщо відповідно до рекомендації ITU-R BT.601 (International Telecommunications Union – Recommendation) основний рівень визначає дозвіл стандартного телевізійного кадру, то високі рівні орієнтовані на телебачення високої чіткості.

Профілі: простий SP (Simple Profile), основний MP (Main Profile), 2 масштабованих - по відношенню сигнал-шум SNR Scalable Profile і за роздільною здатністю Spatially Scalable Profile і, нарешті, високий HP (High Profile). Важливе місце також займає не визначений стандартом, але так званий основний професійний або, по-іншому, MPEG 422 профіль, що активно використовується в практиці. Його позначають як 422Р. Якщо з рівнями все зрозуміло, пояснення відмінностей профілів вимагає деякої підготовки.

У першій їх використовується експериментально встановлена ​​мала чутливість людського сприйняття до спотворень дрібних деталей зображення. Око швидше зауважує неоднорідність рівномірного фону, ніж викривлення тонкої межі або зміна яскравості та кольору малої ділянки. З математики відомо два еквівалентні уявлення зображення: звичний нам просторовий розподіл яскравості та кольору і так званий частотний розподіл, пов'язаний із просторовим Дискретним Косинусним Перетворенням (ДКП). Теоретично вони рівнозначні і оборотні, але зберігають інформацію про структуру зображення абсолютно по-різному: передачу плавних змін фону забезпечують низькочастотні (центральні) значення частотного розподілу, а й за дрібні деталі просторовогорозподілу відповідають високочастотні коефіцієнти Це дозволяє використовувати наступний алгоритм стиснення. Кадр розбивається на блоки розміром 16х16 (розміру 720х576 відповідає 45х36 блоків), кожен із яких ДКП переводиться в частотну область. Потім відповідні частотні коефіцієнти піддаються квантування (округлення значень з інтервалом, що задається). Якщо саме собою ДКП не призводить до втрати даних, але квантування коефіцієнтів, очевидно, викликає огрубіння зображення. Операція квантування виконується зі змінним інтервалом – найбільш точно передається низькочастотна інформація, тоді як багато високочастотних коефіцієнтів набувають нульових значень. Це забезпечує значне стиснення потоку даних, але призводить до зниження ефективного дозволу та можливої ​​появи незначних хибних деталей (зокрема, на межі блоків). Очевидно, що чим грубіше квантування використовується, тим більший ступінь стиснення, але і тим нижча якість результуючого сигналу.

Тимчасова MPEG-компресія використовує високу надмірність інформації у зображеннях, розділених малим інтервалом. Справді, між суміжними зображеннями зазвичай змінюється лише мала частина сцени – наприклад, відбувається плавне усунення невеликого об'єкта і натомість фіксованого заднього плану. У цьому випадку повну інформацію про сцену потрібно зберігати лише вибірково для опорних зображень. Для інших достатньо передавати лише різницеву інформацію: про становище об'єкта, напрям і величину його зміщення, про нові елементи фону (відкриваються за об'єктом у міру його руху). Причому ці різниці можна формувати не тільки в порівнянні з попередніми зображеннями, але і з наступними (оскільки саме в них у міру руху об'єкта відкривається частина фону, прихована раніше заоб'єктом). Зазначимо, що математично найбільш складним елементом є пошук блоків, що зміщуються, але мало змінюються по структурі (16х16) і визначення відповідних векторів їх зміщення. Однак це елемент найбільш суттєвий, оскільки дозволяє суттєво зменшити обсяг необхідної інформації. Саме ефективністю виконання цього "інтелектуального" елемента в реальному часі та відрізняються різні MPEG-кодери.

Таким чином, MPEG кодування принципово формуються три типи кадрів: I (Intra), що виконують роль опорних і зберігають повний обсяг інформації про структуру зображення; P (Predictive), що несуть інформацію про зміни у структурі зображення порівняно з попереднім кадром (типів I або P); B (Bi-directional), що зберігають тільки найбільш істотну частину інформацію про відмінності від попереднього та наступного зображень (тільки I або P). Принципова схема подальшої компресії I-кадрів, як і різницевих P- і B-кадрів, аналогічна MJPEG, але, як і в DV, з адаптивним підстроюванням таблиць квантування. Зокрема, це дозволяє охарактеризувати DV-сигнал як окремий випадок MPEG послідовності I-кадрів із заданим фіксованим потоком (коефіцієнтом компресії). Послідовності I-, P-, B-кадрів об'єднуються у фіксовані за довжиною та структурою групи кадрів - GOP (Group of Pictures). Кожна GOP обов'язково починається з I та з певною періодичністю містить P кадри. Її структуру описують як M/N, де M – загальна кількість кадрів групи, а N – інтервал між P-кадрами. Так, типова для Video-CD та DVD IPB група 15/3 має такий вигляд: IBBPBBPBBPBBPBB. Тут кожен B кадр відновлюється за оточуючими його кадрами (на початку і кінці групи - по I і Р), а в свою чергу кожен Р кадр - по попередньому Р (або I) кадру. В тежчас I кадри самодостатні і може бути відновлені незалежно від інших, але є опорними всім P і більше B кадрів групи. Відповідно у I і P найменша ступінь компресії, у – найбільша. Встановлено, що у розмірі типовий Р кадр становить 1/3 від I, а B – 1/8 частина.

В результаті MPEG послідовність IPPP (GOP 4/1) забезпечує 2-кратне зменшення необхідного потоку даних (при тій самій якості) порівняно з послідовністю тільки з I кадрів, а використання GOP 15/3 дозволяє досягти 4-кратного стиснення.