LINEAR PREDICTION OF SPEECH IN SOFTWARE MODEL OF LOW SPEED VOCODER OVER HYDROACOUSTIC COMMUNICATION

Вокодер – пристрій синтезу промови з урахуванням довільного сигналу з багатим спектром. В даний час існують як апаратні, так і віртуальні реалізації цього пристрою. Даний пристрій дозволяє забезпечити велику пропускну здатність каналу зв'язку, виробляючи стиск потоку інформації, а також дозволяє закодувати інформацію, що передається, що особливо важливо в даний час, у зв'язку з активним використанням і розвитком техніки зв'язку, такий як бездротовий мобільний зв'язок.

1. Види вокодерів

Віртуальні вокодери активно використовуються фірмами – виробниками музичного обладнання. Вокодер як музичний ефект дозволяє перенести властивості одного (модулюючого) сигналу інший сигнал, який називають носієм. Як сигнал-модулятор використовується голос людини, а як носій – сигнал, що формується музичним синтезатором або іншим музичним інструментом.

Віртуальні вокодери з'явилися згодом на основі апаратних, тому часто мають аналогічну структуру. Вони складаються з передавальної та приймаючої частини. Приймальна сторона включає синтезатор мови, який складається з генератора тонального сигналу, генератора шумів і набору фільтрів. Генератор тонального сигналу служить відтворення голосних звуків, тоді як генератор шуму – приголосних [6].

Існують такі види вокодерів:

1. Смужний вокодер.

2. Формантний вокодер.

3. Гармонічний вокодер.

4. Кореляційний вокодер.

5. Гомоморфний вокодер.

6. Вокодер на основі лінійного провісника.

Розробляється програмна модель вокодера, тобто віртуальний вокодер, в основі якого лежить один із видів вокодерів.

Основними вимогами до вокодерує:

- можливість змінювати частоту сигналу, що передається так, щоб сигнал проходив по гідроакустичному каналу зв'язку з найменшими втратами;

- Відсутність залежності від мови мови;

- Можливість контролю швидкості передачі;

- Просте інтерпретація структури в програмний вигляд.

Розглянемо вокодери деяких видів та оцінимо їхню відповідність пред'явленим вимогам.

Спектр мовного сигналу смугового вокодера на передавальному кінці розділяється вузькосмуговими фільтрами (ПФ) на частотні смуги (спектральні канали), у кожній з яких шляхом детектування та згладжування фільтрами низьких частот визначається середня інтенсивність сигналу. Величини середніх інтенсивностей (тимчасові огинаючі) передаються в аналоговій або імпульсній формі каналом зв'язку. Крім того, на передавальному кінці визначається висота основного тону за допомогою видільника основного тону (ВОТ) та характер спектру сигналу збудження (тональний або шумовий) за допомогою видільника тон-шум (ВТШ). Ці сигнали також передаються каналом. На прийомі сигнал, що характеризує основний тон, керує частотою генератора імпульсів (ГІ), а перемикання вхідних фільтрів на вихід ГІ або шуму генератора (ГШ) здійснюється за допомогою сигналу тон-шум. Широкосмуговий сигнал, створений одним із генераторів (сигнал збудження), поділяється на частотні смуги гребінкою (комплектом) ПФ. З виходу останніх частотні складові сигналу збудження подаються на модулятори (М), в яких за допомогою тимчасових спектральних огибающих каналів здійснюється управління їх амплітудами. Для усунення небажаних продуктів модуляції, на виході модульаторів включається ще один гребінець смугових фільтрів. Отриманий синтезований сигнал приблизно відображає вихідний природний сигнал [1].

Основним недоліком смугових вокодерів є технічна складність і громіздкість реалізації, обумовлена великою кількістю фільтрів, що використовуються. Якість мови, що відновлюється, може знижуватися через те, що в смузі пропускання фільтра на тональних звуках може виявитися кілька гармонік основного тону і число таких гармонік може змінюватися в часі.

Принципи побудови формантного вокодера багато в чому аналогічні принципам природного мовлення та прийому мови. У формантному вокодер відбувається виділення з мовного сигналу керуючих сигналів (сигнал - параметрів), які на прийомі впливають на резонансні контури і відтворюють необхідну огинає спектра. Для передачі формантних параметрів необхідні смуги, більш вузькі, ніж для смугових вокодерів, щодо займаної ширини каналу перевагу матимуть формантні вокодери порівняно з смуговими [7].

Головним недоліком формантного вокодера є складність точної та надійної ідентифікації формант. Також для здійснення можливості зниження швидкості передачі необхідно зменшувати словник. Важливий і факт, що форматний вокодер має підвищену чутливість до помилок каналу зв'язку. Потенційний недолік даних вокодерів полягає в тому, що синтезована на приймальній стороні не буде містити індивідуальних характеристик голосу мовця.

Коефіцієнт компресії гармонійного вокодера в 1,7 рази вище, ніж смугового. Спектральну огинаючу мовного сигналу можна подати у вигляді суми ортогональних функцій. У цьому випадку, на відміну від звичайних – смугового та формантного вокодерів, спектральна огинаюча на прийомі відтворюється не за окремими ординатами, а у вигляді суми тих самих ортогональних функцій. В даний час найбільшповно розроблений метод подання спектральної огинаючої у вигляді суми гармонійних функцій.

Для гармонійного вокодера достатньо мати канал зв'язку, що має пропускну здатність, не більшу за 2000 біт/с. Однак гармонійні вокодери не знайшли практичного застосування через відсутність суттєвих переваг у порівнянні зі смуговими або форматними вокодерами. Але для програмної реалізації структура гармонійного вокодера зручніша, і ті незначні переваги при апаратній реалізації стають більш вагомими.

Одним із недоліків смугових та частково гармонійних вокодерів є інтерференція між складовими спектру, а також виникнення тимчасових зрушень між складовими спектру у смугових вокодерах через застосування смугових фільтрів у синтезаторах. Однією із спроб уникнути впливу ефектів фазових зрушень є застосування кореляційних методів аналізу мовного сигналу та відповідного синтезу. Цей метод близький до методу гармонійних вокодерів з аналізом енергетичного спектру мовлення, що огинає.

Інформацію про спектр можна висловити функцією кореляції. У кореляційних вокодерах, як і гармонійних, використовується перетворення Фур'є. Між функцією кореляції та енергетичним спектром сигналу є цілком певний зв'язок. Це дає можливість за функціями кореляції знаходити ординати спектральної огинаючої та навпаки.

У методі, який використовується у кореляційних вокодерах, використовується кінцева затримка. Виміряна функція кореляції виявляється обрізаною і синтезованому коливанні зазвичай є розриви безперервності.

Гомоморфна обробка сигналів є одним з нелінійних методів обробки, який може ефективно застосовуватися до складних сигналів, наприклад, до мовних. Зз урахуванням використовуваної у вокодерах моделі системи голосоутворення, мовний сигнал можна як тимчасову згортку імпульсної перехідної характеристики голосового тракту з сигналом збудження. У частотній області це відповідає твору частотної характеристики голосового тракту та спектра сигналу збудження. Зрештою, якщо взяти логарифм від цього твору, то отримаємо суму логарифмів спектра сигналу збудження та частотної характеристики голосового тракту. Оскільки людське вухо практично не чутливе до фази сигналу можна оперувати з амплітудними спектрами. У гомоморфних вокодер використовується зворотне перетворення Фур'є.

2. Особливості поширення звуку у воді

Звукові хвилі є єдиним видом випромінювання, здатним поширюватися в товщі океану на тисячі кілометрів. Світлові промені практично повністю розсіюються в морській воді протягом кількох десятків метрів, а радіохвилі згасають на відстанях близько сотні метрів. Звук у воді поширюється набагато далі, ніж у повітрі. Втрати при поширенні можна як суму втрат розширення фронту хвилі і втрат внаслідок згасання [5].

Особливий вид поширення спостерігається у тому випадку, коли імпульсний сигнал затягується у часі. При багатопроменевому поширенні відбувається збільшення тривалості імпульсу в міру віддалення джерела. Це грає особливо значної ролі при поширенні сигналу великі відстані у підводному звуковому каналі [4].

Одним із найбільш важливих факторів, що впливають на процес поширення звукових хвиль в океані, є неоднорідність води на різних глибинах, що призводить до залежності швидкості поширення від занурення. Зі збільшенням глибини поглинаннязменшується. Поглинання звуку під час поширення у воді залежить від його частоти. Поглинання звукових хвиль у морській воді підвищується зі збільшенням їхньої частоти. Головна причина цього – специфічні процеси дисоціації та рекомбінації іонів, розчинених у воді солей. Внаслідок цього поглинання звуку в солоній воді значно більше, ніж у прісній. На низьких частотах воно невелике, проте із збільшенням частоти росте досить швидко. Так, енергія звукової хвилі зменшується в 10 разів при частоті 50 гц з відривом 25 000 км, при частоті 500 гц – з відривом 800 км, за частоті 5000 гц – з відривом 25 км [3].

Існує таке явище, як підводний звуковий канал (ПЗК). Частина енергії, що випромінюється джерелом у ПЗК, залишається в каналі і не зазнає акустичних втрат, пов'язаних із відображенням від поверхні та дна.

3. Програмна модель вокодера

Таким чином, з вищевикладеного можна зробити висновок, що для основи для програмного моделювання низькошвидкісного вокодера для передачі промови гідроакустичному каналу зв'язку найбільше підходить гармонійний вокодер, а також структура програмної моделі може бути доповнена лінійним провісником мови. Гармонічний вокодер має показник компресії вище, ніж у смугового вокодера, не залежить від мови і вимагає додаткового словника, як формантний вокодер. Він має структуру, що добре піддається моделюванню, на відміну від кореляційного та гомоморфного вокодерів. Також важливий факт, що гармонійний вокодер працює на низьких швидкостях, без шкоди якості мови, на відміну від формантного вокодера, який хоч і здатний працювати на нижчих швидкостях, але тільки за рахунок зменшення розміру словника, що позначається на якості мови.

Складний не періодичний мовнийсигнал можна розбити на короткі інтервали, у яких цей сигнал вважатимуться періодичним. У випадку з промовою найзручніше брати інтервал рівний середньої тривалості форманти. Піддавши отриманий відрізок сигналу обробці за допомогою перетворення Фур'є, виходять коефіцієнти, які визначатимуть гармоніки, що входять до сигналу. Сам сигнал можна уявити як гармонік виду:

F(k)= A cos(2πνt + φ),

ν – це частота гармонії з індексом k.

За отриманими коефіцієнтами перетворення Фур'є визначаються найбільш значущі гармоніки, за сумою яких можна зробити передбачення поведінки продовження сигналу першого вокалізованого його відрізка на наступні відліки часу (рисунок 1), кількість яких менше, ніж кількість відліків у вихідному сигналі.

Малюнок 1. Сигнал із передбаченим продовженням

Для наступних відрізків проводиться апроксимація функції на попередній відрізок і прийшов.

Для невокалізованих звуків виробляється визначення належності частини сигналу до періодичних на заданому відрізку. У разі його періодичності він проходить ту саму обробку, як і вокалізовані сигнали, інакше – передається без змін.

Таким чином, виходить сигнал наступного виду, де пунктирною лінією показані передбачені ділянки (рисунок 2). Як видно з малюнка, третина сигналу, отриманого на виході сторони приймача вокодера, є передбаченою.

Малюнок 2. Отриманий сигнал.

Дана обробка мови дозволяє зменшити швидкість передачі, зберігаючи при цьому параметри сигналу, що характеризують мова диктора, що дозволить підвищити радіус його поширення гідроакустичного середовища. В даному випадку передбачення мови буде здійснюватися апроксимацією сигналу, але ввипадку, якщо вбудувати в лінійний провісник систему, що навчається, то можна ще більше підвищити якість сигналу. Середня тривалість форманти, що використовується в даній моделі як тривалість відрізка, що передається, не має абсолютної величини. Ця величина дорівнює приблизно 30 – 50 мс. [2]. При цьому голосні звуки мають більшу тривалість, ніж згодні. У зв'язку з цим дана модель забезпечується налаштуванням тривалості інтервалу, що передається, а також можливістю передавати інтервали різної тривалості для голосних і приголосних звуків. Це дозволить провести дослідження та аналіз результатів для виявлення методу, що дозволяє досягти кращих характеристик переданої мови.

Таким чином, було прийнято рішення створити програмну модель вокодера на основі гармонійного вокодера, частина якого, що приймає, забезпечена лінійним провісником. Сигнал піддається кодуванню і передається в цифровому вигляді, що дозволяє контролювати частоту передачі, а також робить сигнал більш стійким до перешкод. Дана модель також дозволить варіювати тривалість переданих та передбачуваних відрізків мови, що дозволить провести експерименти для виявлення ефективності застосування лінійного передбачення при різному співвідношенні вихідної та передбачуваної частини.

Рецензенти:

Лук'янов Віктор Сергійович, д-р техн. наук, професор, зав. кафедрою «Електронно-обчислювальні машини та системи» ВолгДТУ, м. Волгоград.

Камаєв Валерій Анатолійович, д-р техн. наук, професор, зав. кафедрою «Системи автоматизованого проектування та пошукового конструювання» ВолгДТУ, м. Волгоград.