Як це працює Синтез мови -А що взагалі відбувається, а

В Яндексі для озвучування текстів використовується технологія синтезу мови із комплексу Yandex Speechkit. Вона, наприклад, дозволяє дізнатися, як вимовляються іноземні слова та фрази у Перекладачі. Завдяки синтезу мови свій голос отримав і Автопоет.

Підготовка тексту

Вимова та інтонування

Коли транскрипція готова, комп'ютер розраховує, як довго звучатиме кожна фонема, тобто скільки в ній фреймів — так називають фрагменти завдовжки 25 мілісекунд. Потім кожен кадр описується по безлічі параметрів: частиною якої фонеми він є і яке місце в ній займає; до якого складу входить ця фонема; якщо це голосна, то чи ударна вона; яке місце вона займає у складі; склад - у слові; слово - у фразі; які розділові знаки є до і після цієї фрази; яке місце фраза займає у реченні; нарешті, який знак стоїть наприкінці речення та яка його головна інтонація.

Іншими словами, для синтезу кожних 25 мілісекунд мовлення використовується безліч даних. Інформація про найближче оточення забезпечує плавний перехід від кадру до кадру і від складу до складу, а дані про фразу і пропозицію в цілому потрібні для створення правильної інтонації синтезованої мови.

Для читання підготовленого тексту використовується акустична модель. Вона відрізняється від акустичної моделі, яка застосовується при розпізнаванні мови. У разі розпізнавання моделі необхідно встановити відповідність між звуками з певними характеристиками і фонемами. У разі синтезу акустична модель, повинна, навпаки, за описами фреймів скласти описи звуків.

Звідки акустична модель знає, як правильно вимовити фонему чи надати вірну інтонацію запитальній пропозиції? Вонанавчається на текстах та звукових файлах. Наприклад, у неї можна завантажити аудіокнигу та відповідний їй текст. Чим більше даних, на яких навчається модель, тим краще її вимова та інтонування.

Голоси

Нарешті, про голос. Впізнаваними наші голоси насамперед робить тембр, який залежить від особливостей будови органів мовного апарату у кожної людини. Тембр вашого голосу можна змоделювати, тобто описати його характеристики – для цього достатньо начитати у студії невеликий корпус текстів. Після цього дані про ваш тембр можна використовувати при синтезі мови будь-якою мовою, навіть такою, яку ви не знаєте. Коли роботу потрібно сказати вам, він використовує генератор звукових хвиль – вокодер. У нього завантажується інформація про частотні характеристики фрази, отримана від акустичної моделі, а також дані про тембр, який надає голосу забарвлення.

Як приклад ми озвучили дві останні пропозиції попереднього абзацу різними голосами — чоловічим та жіночим: