Штучний інтелект Google вчиться гарно говорити китайською та англійською

Для цього нейромережі, що самонавчається, необхідно прослухати безліч аудіозаписів і навчитися самостійно виділяти сенсотворчі зміни довжини звукової хвилі. Однак, це не так просто. Аудіозапис людської мови – це близько 16000 звукових модуляцій на секунду. Уявіть собі візуалізацію звукової хвилі – звичайний веретеноподібний графік. Кожен вигин цього веретена породжений тисячами змін довжини та амплітуди звукової хвилі.

Існуючі генератори мови працюють з допомогою конкатенації (склеювання) фрагментів записаної мови з великої бібліотеки. Їхнє звучання зовсім неважко відрізнити від людської мови. Ви часто чуєте конкатенативні TTS (text-t-speach systems) у навігаторі: «Поверніть праворуч, а потім поверніть праворуч». Не записавши додатково великі бібліотеки, не можна домогтися від такої системи природного звучання. Тому виникла потреба в параметричній TTS (на кшталт тих, які існують у вокодерах), яка могла б озвучити будь-який фрагмент тексту, не відомий заздалегідь, і була б при цьому невідмінна на слух від мови живої людини.

WaveNet працюватиме як параметричний синтезатор мови. При параметричному підході мова розкладається на безліч сигналів, що безперервно змінюються. Досі параметричні системи могли відтворювати лише заздалегідь відомі короткі повідомлення, проте WaveNet буде здатний передбачати параметри кожного наступного коливання завдяки тій самій архітектурі нейромережі, що дозволила Deep Mind навчитися розпізнавати зображення. Передбачення кожного нового параметра буде засноване на досвіді всіх попередніх прогнозів нейромережі, тому в міру навчання нейромережіїї здібності зростатимуть експоненційно.

Під час навчання в комп'ютер завантажуються записи промови живих людей англійською та китайською мовами. Після навчання розробники просять WaveNet озвучити згенеровані їй фрази. Те, що система видає зараз, поки що все ще відрізняється від мови живої людини, але вже не звучить як штучний голос із навігатора.

Раніше Deep Mind обіграв людину в го і розробив алгоритм для офтальмологічної діагностики.