11. Вокодери з лінійним пророкуванням (ліпредери)

Кодування мови на основі методу лінійного передбачення полягає в тому, що по лінії зв'язку передаються параметри мовного сигналу (РС), як такого, а параметри деякого фільтра, у відомому сенсі еквівалентного голосовому тракту, і параметри сигналу збудження цього фільтра. Як такий фільтр використовується фільтр лінійного передбачення (ФОП), названий раніше фільтром-аналізатором з передавальною функцією A(z). При кодуванні (на передачі) проводиться оцінка параметрів ФОП і параметрів сигналу збудження, а при декодуванні (на прийомі) сигнал збудження пропускається через фільтр-синтезатор, на виході якого виходить відновлений сигнал мови. Різні варіанти алгоритмів кодування відрізняються набором параметрів фільтра, що передаються, методом формування сигналу збудження і рядом інших деталей, а процедура кодування мови зводиться до наступного (рис. 11.1):

оцифрований сигнал промови "нарізається" на сегменти тривалістю 20 мс;
для кожного сегмента оцінюються параметри ФОП та параметри сигналу збудження; в якості сигналу збудження в найпростішому (ідеї) випадку може виступати залишок передбачення, одержуваний при пропусканні сегмента мови через фільтр A(z) з параметрами, отриманими з оцінки для даного сегмента;
параметри фільтра та параметри сигналу збудження кодуються за певним законом і передаються канал зв'язку.

Мал. 11.1. Кодування мови на основі методу лінійного передбачення

Процедура декодування мови полягає у пропусканні прийнятого сигналу збудження через синтезуючий фільтр відомої структури, параметри якого передані одночасно із сигналом збудження. Сигнал на вхід фільтра, що аналізує, надходить безпосередньо з виходуАЦП, а вихідний сигнал фільтра, що синтезує, потрапляє на вхід ЦАП. Наведений опис процесів кодування та декодування мови не є вичерпним, він пояснює лише принцип дії кодека. Практичні схеми помітно складніші, і це пов'язано здебільшого з наступними двома моментами.

По-перше, мовний сигнал має два види внутрішніх кореляційних зв'язків, короткочасною і довготривалою надмірністю, тому в переважній більшості сучасних мовних кодеків використовується два провісники: короткочасний (SHORT-TERM) і довготривалий (LONG-TERM). Перший провісник (STP), що враховує короткочасну надмірність РС, пов'язаний з кореляціями між близько розташованими відліками сигналу і визначає спектр, що огинає. Його порядок зазвичай буває 6÷10. Другий, довготривалий, провісник (LTP) визначає тонку структуру РС і пов'язані з кореляцією двох відрізків сигналу між собою, реально - двох сусідніх періодів основного тону (ВІД). Період основного тону мови змінюється у межах. На практиці забезпечується формування частоти ВІД в межах 57 500 Гц, що відповідає зміні періоду від 2 до 17,5 мс.

Поєднання двох провісників з різними характеристиками дозволяє значною мірою усунути залишкову надмірність і наблизити залишок передбачення своїм статистичним характеристикам до білого шуму. При цьому на приймальну сторону передаються залишок передбачення та коефіцієнти обох (STP та LTP) передбачень.

По-друге, використання залишку передбачення як сигнал збудження виявляється недостатньо ефективним, оскільки вимагає кодування занадто великого числа біт. Тому практичне застосування знаходять економічніші (за завантаженням каналу зв'язку, але зовсім не за обчислювальними витратами)методи формування сигналу збудження

Розглянемо структурну схему вокодера з лінійним передбаченням докладніше (рис. 11.2). На підготовчому етапі виконують аналого-цифрове перетворення РС і сегментацію цифрового потоку: для подальшої обробки вибирають відліки сигналу на інтервалі тривалістю 20 мс, що при Fд = 8 кГц забезпечує кількість відліків, що обробляються, дорівнює 160. Після сегментації відліків РС в кодері послідовно виконуються наступні три процедури :

короткочасний (формантний) аналіз з використанням процедури лінійного передбачення, внаслідок чого одержують перший залишковий сигнал r1(k);
довготривалий аналіз з використанням лінійного передбачення для визначення параметрів ВІД, в результаті чого отримують другий залишковий сигнал r2(k), близький за своїми характеристиками до шумового, оскільки між відліками цього сигналу кореляція мала;
апроксимація другого залишкового сигналу з метою формування сигналу збудження.

У першій процедурі оцінку поточного відліку Ś(k) визначають відповідно (10.1) як суму P попередніх відліків. При формантному аналізі порядок передбачення P вибирають рівним 8 – 12. Визначення коефіцієнтів передбачення apiфільтра-аналізатора (10.5) виробляють у блоці формантного аналізу з умови мінімізації середньоквадратичного значення помилки передбачення (тобто першого залишкового сигналу) на інтервалі сегмента.

Обчислені значення коефіцієнтів передбачення використовують у фільтрі видалення формант кодера, на виході якого отримують сигнал, вільний від квазіперіодичних складових формант; його називають першим залишковим сигналом. Інформацію про формантів несуть передані на приймальний кінець параметри фільтра api, або пов'язані з нимикоефіцієнти часткової кореляції (коефіцієнти відбиття). Іноді використовують функції від коефіцієнтів відображення - звані логарифмічні відносини площ.

У другій процедурі з урахуванням того, що основний тон характеризується всього двома параметрами, - амплітудою та періодом, передатна функція фільтра видалення ВІД A2(z) описується більш простим, порівняно з (10.4), виразом

, (11.1)

де G – єдиний коефіцієнт передбачення, що характеризує амплітуду основного тону. Затримка a визначає період основного тону, її значення зазвичай залежить від від 20 до 160 інтервалів дискретизації сигналу, що відповідає діапазону частот основного тону 50 - 400 Гц. Відомо, що значення основного тону для різних голосів може змінюватись майже в 10 разів – від 2 до 18 мс. Ця обставина створює чимало труднощів в оцінці ВІД, оскільки слух дуже чутливий до його спотворень. Методів вимірювання ВІД відомо дуже багато і, водночас, метод, що не вимагає надмірної затримки, поки що не з'явився.

Незважаючи на відносну простоту виразу (11.1), аналіз та видалення ВІД є більш складною процедурою порівняно з формантним аналізом. Це зумовлено значно більшим періодом ВІД та складністю виявлення кореляції між відліками на великому часовому інтервалі. Крім того, період та амплітуда ВІД дуже важливі для точного відновлення мови. Саме тому на етапі довготривалого аналізу сегмент промови поділяють на 4 підсегменти. Кожен підсегмент має тривалість 5 мс та містить 40 відліків. Значення G та a визначають для кожного підсегменту окремо. Знайдені параметри G та a використовують у фільтрі видалення основного тону. Їх також передають на приймальний кінець декодер, де використовують при синтезі мовного сигналу.

Мал. 11.2. Структурна схема ліпредора

Розв'язуване завдання третьої процедури - при мінімальному обсязі інформації про сигнал збудження забезпечити прийнятну якість відновленого сигналу. Для досягнення цього обробку другого залишкового сигналу виробляють окремо для кожного підсегменту 40 відліків. Суть апроксимації полягає в тому, що другий залишковий сигнал моделюють у вигляді певної кількості імпульсів на інтервалі підсегменту.

Передані каналом зв'язку параметри апроксимації другого залишкового сигналу, параметри основного тону G і a, коефіцієнти формантного фільтра api надходять на відповідні блоки декодера (рис. 11.2). У будь-якому випадку по каналу зв'язку замість самої мови передають так чи інакше виділені та квантовані параметри короткочасного та довготривалого передбачення, інтервал та посилення ВІД, параметри збудження. У декодері ЛП за прийнятими параметрами відновлюють сигнал збудження, пропускають його через фільтр, що синтезує, і відновлюють мова.

Синтез сигналу починають із відновлення другого залишкового сигналу, що виконується генератором збудження. Відновлений сигнал r2ос(k) дещо відрізняється від другого залишкового сигналу в кодері через похибку апроксимації.

Відновлений другий залишковий сигнал пропускають через фільтр відновлення основного тону, передатну характеристику якого H2(z) встановлюють зворотної характеристики фільтра видалення основного тону кодера:

На виході цього фільтра отримують відновлений перший залишковий сигнал r1ос(k), який включає основний тон. Нарешті, фільтр відновлення формант з передавальною функцією H(z) відновлює формантні складові сигналу.

Відновлений сигнал Sвос(n) достатньоблизький до вихідного сигналу вході кодера S(n). Виконавши цифро-аналогове перетворення та пропустивши сигнал через ФНЧ, отримують відновлений аналоговий сигнал.

Всі процедури обробки сигналу в кодері та декодер виконуються цифровими методами. Кодер та декодер реалізують на високопродуктивному сигнальному процесорі. Показані на рис. 11.2 модулі ліпредора фактично є блоками програмного забезпечення.