Термінологія в галузі систем генерації мовлення

Система генерації мовиє дзеркальним відображенням системи розпізнавання мови. Вона включає генератор повідомлень у формі символьних рядків, алгоритм генерації мови, який використовується в ході перетворення рядка символів в деяку акустичну імітацію мови, і людини, що сприймає згенеровану мову. Система генерації мови завжди функціонує в умовах середовища, яке визначається завданням користувача.

Подібно до систем розпізнавання системи генерації мовлення мають кілька параметрів. Існують два основних методи генерації -метод синтезування мовиіметод генерації мовних сигналів на базі цифрового уявлення.Метод синтезування передбачає генерацію мови повністю за деяким алгоритмом без використання попереднього запису мови людини. Термін «цифрове уявлення мови» застосовується у випадках, коли мова людини спочатку була записана в цифровому вигляді, а потім перетворена і представлена більш компактному форматі даних. Найбільш поширеними методами (існують та інші) є перетворення Фур'є, лінійне кодування з передбаченням та кодування параметрів форми сигналу. Ці методи називають такожалгоритмічним синтезом(застосовується для отримання синтезованої мови) тааналітичним синтезом(застосовується при генерації на основі цифрового уявлення, коли використовується технологія стиснення даних) [23].

На рис. 3.3 представлені два розглянуті загальні принципи реалізації систем генерації мови. Метод аналітичного синтезу орієнтований отримання мови в цифровому поданні, що показано на схемі зліва. При алгоритмічному синтезі мови використовується безліч правил перетворення тексту або фонетичної структури деякого видунеобхідні для генерації синтезованого мовлення параметри акустичного чи голосового тракту.

Ще одним параметром системи генерації мовлення є розмір словника. Системи генерації мови можуть мати фіксований чи необмежений словник. Системи з фіксованим словником містять багато слів або фраз, які використовуються для формування повідомлень. У системах з необмеженим словником може генеруватися необмежену кількість синтаксично правильних повідомлень, що будуються з фонем або фонетичних сегментів [69, 71]. У цифрових системах генерації мови використовуються лише фіксовані словники. У системах, що реалізують метод синтезу мови, застосовуються як фіксовані, і необмежені словники. Якщо користувач може змінювати елементи словника, системи з фіксованим словником називаютьсистемами, програмованими користувачем.Системи з фіксованим словником

Фонеми, алофони, дифтонги та ін.

Аналоговий котушковий магнітофон

Стискання цифрових даних за допомогою лінійного передиктивного кодування, перетворення Фур'є,Коді-Рування форми сигналу та ін. '

Параметри мовного тракту

Мова в цифровій формі

Мал.S3.Методи генерації мови ([44] згідно Сімпсона).

Називаютьсистемами, програмованими постачальником,якщо для отримання нового словника користувач повинен звертатися до виробника або третьої сторони.

У системах генерації промови з урахуванням цифрового уявлення може реалізовуватися безліч різних голосів. Це пов'язано з тим, що словник такої системи залежить від конкретних дикторів (від людей, що реєструються). Однак, як тільки длядеякого застосування вибирається певний суб'єкт, що говорить, для забезпечення узгодження звукових характеристик його голосу з еталонами новий словник повинен формуватися в системі за участю саме даного диктора. Що ж до системи із синтезуванням мови, її словник залежить від того, хто говорить, зате кількість різних типів голосів, одержуваних під час використання такої системи, обмежена і зазвичай становить від однієї до шести. За допомогою керуючої програми більшість синтезованих зразків мови може змінюватися за основною частотою (сприймається як висота голосу) та за швидкістю мови. Більшість синтезаторів мови, що випускаються промисловістю, генерує чоловічі голоси і лише кілька синтезаторів відтворюють мову, відповідну жіночому голосу. За допомогою програмного управління вимовою окремих фонем можуть бути отримані деякі варіації діалекту та акценту. ОглядипоСистемам генерації мови, що промислово випускаються, містяться в роботах [8, 65, 69, 83].

Швидкість передачі даних, розбірливість та природність синтезованої мови

Оцінка систем генерації мови часто проводиться за швидкістю передачі даних, розбірливістю і природністю мови, що генерується. У літературі з генерації промови у зв'язку з терміном «швидкість передачі» часто виникає двозначність, оскільки може позначати або обсяг пам'яті, яка потрібна на зберігання мовної інформації, або швидкість, з якою мовні дані передаються до пристрою відтворення промови, чи дійсну швидкість відтворення згенерованої мови [73].

Терміни «природність» та «розбірливість», на жаль, часто плутають у сучасній технічній документації та науковій літературі. Поняття «розбірливість» має дуже точне значення. Вонопозначає частку правильно розпізнаних слухачем мовних елементів. Елементами мови можуть бути слова, речення, окремі звуки мови (фонеми) або навіть акустичні властивості цих фонем, що сприймаються. У роботі [36] дано вичерпні рекомендації щодо тестування систем генерації та розпізнавання на розбірливість мови, що відтворюється. Ступінь природності мови визначається думкою слухача, яке за деякою шкалою якості характеризує ступінь близькості звуків синтезованої мови звуків, які вимовляє людина. Розбірливість і природність мови можуть вимірюватися незалежно, хоча немає [73] стандартних тестів для вимірювання ступеня природності мови. Крім того, природність та розбірливість мови не обов'язково корелюють [87]. Наприклад, мова диктора, що передається по радіо, може звучати природно на тлі постійного шуму, але малорозбірливою. Навпаки, добре відомі пілоту синтезовані мовні попереджувальні повідомлення можуть звучати «механічно», проте пілоти оцінюють такі повідомлення як зрозуміліші, ніж звичайні повідомлення бортової радіомережі [73, 81].