Формантний синтез

Зміст

Формантний синтез

Існує багато методів реалізації формантного синтезу мови. Усі вони засновані на детальному знанні фонем та фонетичному розчленуванні мови та базуються на двох фундаментальних поняттях: лінгвістичного – фонеми, та акустичного – форманти.

Фонема – основна одиниця звукового ладу мови. Звуковий склад різних мов має особливості. в українській мові налічують 41 фонему, з них 6 голосних та 35 приголосних (в англійській - 20 голосних та 24 приголосних, у французькій - 15 голосних та 20 приголосних). Можна сміливо сказати, що фонема - найменша мовна одиниця, має сенсоразличительное значення. З послідовності фонем будуються слова. Сенс висловлювання виражається у вигляді ланцюжка слів.

Під формантамирозуміються частотні резонанси (полюси передавальної функції) мовної акустичної системи. Параметри формант (частота, ширина, рівень) випереджаються акустичними властивостями системи. Найбільш важливий параметр - частота форманти, що тісно пов'язаний з геометричною конфігурацією мовного тракту. Оскільки у процесі промови зміна мовного тракту змінюється, то відповідно змінюються формантні частоти (рис. 8.9).

Мал. 8.9 - Приклад частотного спектра мовлення

Для задовільного синтезу мови зазвичай потрібні дві - чотири формантні частоти. Вони лежать у діапазоні від 200 (перша форманта чоловічого голосу) до 2000 Гц (третя форманта жіночого голосу) [23]. Точним розташуванням формантних частот у звуковому спектрі визначається звук, який ми інтерпретуємо як мова. Причому всі формантні частоти присутні в мові одночасно і безперервно переміщуються вгору-вниз по частотному спектру відповідно доособливостями слова, що вимовляється. Тому, слухаючи людину, що говорить, ви чуєте звук не якої-небудь однієї частоти, а безліч обертонів, які утворюються при фільтрації імпульсів, що формуються на виході голосового тракту.

Отже, основу формантного синтезу лежить аналогія з моделлю речеобразования людини. Розглянемо формування голосних звуків моделі (рис. 8.10).

Мал. 8.10 – Модель речетворення

Джерело збудження створює імпульси основного тону, частота проходження яких безперервно змінюється у процесі формування промови. Мовний тракт при утворенні голосних звуків працює як набір резонаторів, у яких відбувається фільтрація сигналу збудження. В результаті утворюється спектральна картина, що містить низку максимумів. Максимуми відповідають резонансам тракту (це і є форманти). Таким чином, форманти – це деяка частотна область концентрації енергії у спектрі звуку. Використовують від двох до шести формантів залежно від необхідної точності аналізу мови. Сумарний вихідний сигнал формантних фільтрів (резонаторів) досить близько відповідає частотному спектру мови людини, і наш слух сприймає його мовленнєве повідомлення.

Наведемо таблицю формантних частот деяких фонем голосних звуків.

Шляхом одночасної генерації формантних частот згідно таблиці 8.1 можна отримати голосні звуки.

Структурна схема формантного синтезатора голосних звуків наведено на рис. 8.11.

Структурна схема форматного синтезатора голосних звуків включає генератор частоти основного тону, що задає, смугові фільтри, що перебудовуються на формантні частоти, відповідні синтезованій фонемі за допомогою змінних резисторів - і суматор, що підсумовує сигнали з трьох фільтрів. У спектрограмі вихідного сигналуцієї схеми містяться три формантні частоти, ідентичні формантним частотам у спектрограмі мови людини, що вимовляє ті ж голосні.

Мал. 8.11 – Структурна схема формантного синтезатора голосних звуків

Набагато складніше формувати приголосні звуки. Згодні - звуки мови, при вимові яких у порожнині рота утворюються перешкоди для повітря, що видихається:

- Підривні - при повному змиканні органів мови (п, т, до);

- фрикативні – утворюється щілина (с, ф, х);

- носові приголосні (н, м);

- африкату - приголосний звук, що представляє злите поєднання (ч-тщ, ц-тс).

Щоб розширити діапазон синтезатора (рис. 8.11), необхідно ввести джерело шуму для формування вибухових і фрикативних приголосних, а також аналог резонансної носової порожнини, що імітує носові приголосні. Структура цього розширеного формантного синтезатора наведено на рис. 8.12.

Структура повного формантного синтезатора мови (рис. 8.12) ускладнюється дуже сильно, проти синтезатором голосних звуків. Значно збільшилася кількість регулювань у схемі. Три їх служать керувати амплітудою фрикативних, голосних і носових звуків, один - регулювання висоти тону, а п'ять інших - регулювання частот різних резонансів. Застосувавши як пристрій управління регуляторами мікропроцесор з відповідною кількістю портів вводу-виводу ми отримаємо пристрій, здатний робити всі необхідні регулювання зі швидкістю, достатньою для прийнятного наближення до нормальної мови людини.

Мал. 8.12 - Структурна схема формантного синтезатора мовлення

Природно, що чим більше звернень до довідкової таблиці вироблятиме мікропроцесор з кожної фонеми, то більшою плавністюбуде відрізнятися синтетична мова і тим ближче вона буде до природного людського мовлення.

Перевага формантного методу синтезу - у його універсальності (тобто можливість мати необмежений словник) оскільки тут мова створюється з звуків, що окремо генеруються. Правильно розставивши звуки, можна вимовити будь-яке слово.

Універсальність ця, однак, не дається безкоштовно – за неї доводиться розплачуватися погіршенням розбірливості мови. Без відповідної підготовки важко зрозуміти, що каже синтезатор.

Додаткові труднощі при реалізації великого словника створює безліч винятків із правил написання і вимови слів. Якщо проаналізувати ту саму фонему, що у різних словах, може виявитися кілька варіантів вимови даної фонеми. Варіації тих, що вимовляються фонем називають алофонами. Алофони поділяються на комбінаторні та позиційні. Комбінаторні відтінки обумовлені сусідством даної фонеми коїться з іншими фонемами і є наслідком накладання одного звуку в інший. Позиційні відтінки обумовлені положенням фонеми у слові чи фразі стосовно ударного складу, кінця і початку слова тощо.

Врахування всіх факторів дозволяє оцінити загальну кількість алофонів, необхідну для якісного синтезу української мови. Загальна кількість алофонів голосних та приголосних.

Інший клас лінгвістичних понять, облік яких є виключно важливим при створенні систем синтезу мови, становлять інтонація та наголос. Фізично інтонація і наголос реалізуються сукупністю акустичних засобів (просодикою), до яких належать:

1) мелодика (рух частоти основного тону голосу);

2) ритміка (поточна зміна тривалості звуків та пауз);

3) енергетика (поточна зміна сили звуку).

Етап перетворення друкованого тексту на послідовність фонем має супроводжуватися виділенням інформації, необхідної для завдання просодичних характеристик синтезованих мовних сигналів.

З цією метою текст аналізується і з певним правилам розбивається на основні одиниці: фраза, синтагма, акцентна група, фонетичне слово.

Ці одиниці маркуються, відповідно фразовим, синтагматичним, груповим та словесним наголосами. Кожній синтагмі надається один з можливих інтонаційних типів. Це завершеність, незавершеність, питання чи вигук.

Під синтагмою розуміють слово (або групу слів), що є цільною синтаксичною інтонаційно-смисловою одиницею.

Таким чином, як вхідна інформація текстового повідомлення використовується розмічений орфографічний текст, тобто. звичайний орфографічний текст із проставленими знаками словесного, синтагматичного та фразового наголосів.