Нейросеть навчилася реалістичної імітації людської мови

Дочірня компанія корпорації Google під назвою DeepMind, що займається розробкою та покращенням штучного інтелекту, представила вдосконалений алгоритм для синтезу людської мови WaveNet. Для досягнення реалістичнішого результату команда розробників використовувала власну систему ІІ.
Куплена в 2014 р., британська компанія DeepMind вже встигла здобути серйозну репутацію завдяки програмі AlphaGo для гри в Го, кнопці "стоп" для ІІ та іншим не менш вражаючим проектам. У тому числі машинного навчання для розуміння природних мов.
Зазвичай системи перетворення інформації в мову використовують готові аудіозаписи голосу. Спеціальна програма ідентифікує та виділяє потрібні звуки, класифікує їх за допомогою доступних даних, складаючи речення. Така система називається компілятивним синтезом. Метод отримав свою популярність завдяки використанню в популярних голосових помічниках, наприклад, Google Voice Search. Однак, цей метод має досить істотний недолік, а саме — труднощі при модифікації голосу для зміни емоційної складової мови або акценту.
Такий стан речей спричинив попит на альтернативний метод — параметричний TTS. По суті, це машинна генерація промови, яка виключає описані для методу компілятивного синтезу мінуси. Втім є інша проблема. Подібний підхід має характерні для машинного голосу "синтетичні" риси і сприймається мозком інакше, ніж проста людська мова. Особливо це стосується англійської мови (особливості фонетики).
Робота алгоритму WaveNet вирішує проблеми параметричного та компілятивного синтезів. Його суть полягає впоточкової генерації профілю звукової хвилі по семпла. Розробники використовували нейромережу типу FCN. Її архітектура схожа з рекурентними та згортковими нейромережами (PixelRNN та PixelCNN).

WaveNet - згорткова нейромережа. Кожен шар тут має власний множник розширення (дивися анімацію). Це дозволяє рости рецептивному полю експоненційно, покриваючи безліч часових відрізків. Раніше подібна дія вимагала значно більших потужностей. Можливість генерувати складні природні зображення по одному пікселю та колірному каналу за момент часу – результат адаптації двовимірної PixelNets до одновимірної WaveNet.

Навчання даної мережі відбувається шляхом вхідних послідовностей, які є звуковими хвилями прикладів запису голосу. На кожному кроці семплінг значення обчислюється з ймовірнісного розподілу розрахованого мережею. Потім це значення повертається на вхід, після чого відбувається нове передбачення наступного кроку. Створення семплів, таким чином, є досить ресурсомістким завданням, але це необхідно для генерації складних звуків.
Потім розробники вирішили перевірити реалістичність свого методу з допомогою сліпих тестів. Добровольців, що зібралися, попросили оцінити “природність” зразків за шкалою від одного до п'яти. У результаті WaveNet отримав найвищу оцінку серед згаданих у статті синтезаторів мови. Тим самим скоротивши розрив між штучною та природною мовою майже на 50%.

Враховуючи гнучкість WaveNet, система може самостійно синтезувати подобу людської мови. У разі вона використовує отримані знання у тому, як має звучати кожен наступний звук. Це дозволяє нейромережі не просто імітувати мовлення, а привносити до неї емоційне забарвлення.
І те, що недоступне у випадку компілятивного синтезу, для WaveNet не проблема.
Але це не все. Крім людського мовлення, WaveNet також може бути використана для створення музики (16КГц).
WaveNet поки ніде не використовується, оскільки потребує серйозних обчислювальних потужностей. Втім, розробники не відкидають, що знайдуть їй застосування.