14. Оцінка якості передачі промови

Оскільки людина як одержувач інформації є ключовим елементом будь-якої телекомунікаційної системи, якість сигналу оцінюється з його суб'єктивного сприйняття мови. До основних показників якості мови, що приймається, відносять: розбірливість (зрозумілість), гучність і натуральність.

Зрозумілість промови - визначальна характеристика тракту передачі промови, оскільки якщо тракт забезпечує повної зрозумілості промови, то ніякі інші його переваги немає значення - не придатний до експлуатації. Для безпосереднього визначення цієї якісної характеристики є лише один метод – суб'єктивно-статистичні випробування (ССІ), що вимагає великої кількості мовного матеріалу, обробленого кодеками та трактом передачі, та залучення групи експертів (тренованих слухачів та дикторів). Розроблено непрямий, об'єктивний кількісний метод визначення зрозумілості мови через її розбірливість.

Гучність мови визначає бажаний рівень сигналів, при якому розбірливість (зрозумілість) мови досягається без напруги слухового апарату з боку приймаючого. Натуральность промовиоценивает здатність системи відтворювати як сенс промови, а й її тембр і індивідуальні особливості голосів говорять, тобто. здатність забезпечити впізнаваність того, хто говорить по голосу.

Найбільш поширеним об'єктивним методом оцінки якості передачі мови є метод артикуляції. Він заснований на оцінці ступеня виконання головної вимоги, що висувається до розмовних трактів, - забезпечення розбірливої передачі мови. Мірою розбірливості тут є розбірливість елементів промови. Процес вимови мовних елементів називається артикуляцією - звідси і назва методу.

Для вимірів розбірливості розробленоспеціальні (артикуляційні) таблиці складів, звукосполучень та слів з урахуванням їхньої зустрічальності в українській мові (аналогічні таблиці є і для інших мов). Звукових таблиць немає, оскільки звуки, крім голосних, окремо не вимовляються, а вимірювань звукової розбірливості користуються складовими таблицями чи таблицями звукосполучень. Нехай, наприклад, у процесі вимірювання було передано 1200 складів, їх правильно прийнято 840 і спотворено 360. Тоді складова розбірливість складе S = 840´100/1200 = 70%. З усіх типів таблиць артикуляції (складових, словесних, фразових) практичне застосування знаходять перші дві. При цьому складові таблиці артикуляції вважаються основними, так як на практиці в більшості випадків розглядається саме складова розбірливість.

Вимірюють розбірливість експериментально (відповідно до ГОСТ 16600-73) за допомогою артикуляційної бригади – групи тренованих слухачів та дикторів – молодих людей без порушень слуху та мови. Обмеження впливу суб'єктивних факторів досягається шляхом суворої регламентації вимірів артикуляції. Регламентація стосується питань комплектування та тренування артикуляційних бригад, порядку проведення передачі, запису та перевірки артикуляційних таблиць, обробки результатів вимірювання розбірливості.

У табл. 14.1 наведено градації зрозумілості мови та відповідні їм величини розбірливості. Словесна розбірливість нижче за 75% оцінюється як "зрив зв'язку".

Таблиця 14.1

Ці дані отримано широкого словника, тобто. під час передачі найрізноманітнішої інформації. У тих самих випадках, коли йде обмін інформацією з набагато меншим обсягом (тобто при обмеженому словнику), зрозумілість мови буде кращою, ніж у загальному випадку за тієї ж розбірливості мови. Так, для диспетчерського зв'язку40%-ная складова розбірливість відповідає повної зрозумілості промови, хоча у випадку вона відповідає задовільної зрозумілості. Для передачі цифрами повна зрозумілість досягається за 30% складової розбірливості.

За результатами проведення артикуляційних випробувань розбірливості розрізняють класи якості мовних трактів за відсотками правильно прийнятих елементів мови: слабкий, задовільний, добрий і відмінний (табл. 14.2).

Таблиця 14.2

Вигляд розбірливості

Якість мовних трактів, %

При оцінці якості кодування та зіставленні різних кодеків оцінюються розбірливість мови та якість синтезу (якість звучання) мови. За кордоном для оцінки розбірливості мови використовується метод DRT (діагностичний римований тест). У цьому методі підбираються пари близьких за звучанням слів, що відрізняються окремими приголосними на початку слова (типу "дот - той", "кіл - гол"), які багаторазово вимовляються рядом дикторів, і за результатами випробувань оцінюється частка спотворень. Метод дозволяє отримати як оцінку розбірливості окремих приголосних, і загальну оцінку розбірливості промови.

Для оцінки якості звучання використовується критерій DAM (діагностична міра прийнятності). Випробування полягають у читанні кількома дикторами, чоловіками та жінками, ряду спеціально підібраних фраз (12 фонетично збалансованих 6-складових пропозицій), які прослуховуються на виході тракту зв'язку рядом експертів-слухачів, які виставляють свої оцінки за 5-бальною шкалою MOS (середня суб'єктивна оцінка або середня оцінка думок) відповідно до даних табл. 14.3. Потім результати усереднюються. Хоча цей метод є суб'єктивним за своєю суттю (аналог ССІ), його результати зіставлення різних типів кодеків під час проведеннявипробувань одними й тими самими групами дикторів та експертів-слухачів є досить об'єктивними, і них грунтуються практично всі висновки і рішення.

Експериментальні суб'єктивно-статистичні способи визначення оцінок якості надмірно громіздкі та дають достовірні результати лише при великому обсязі обробленого мовного матеріалу. Тому дуже актуально створення об'єктивного методу оцінки якості з меншими витратами праці та часу. Так, при дослідженні мовних кодеків (а останні роки ці дослідження стали проводитися за допомогою ЕОМ) бажано використовувати об'єктивні (формалізовані) критерії якості, що відрізняються оперативністю та не потребують залучення експертів. Проте існуючі об'єктивні критерії якості слабо відбивають властивості слухового сприйняття. Тому критерій якості, який використовується для оцінювання кодеків одного типу, може виявитися некоректним для кодеків іншого типу. Наприклад, такий широко використовуваний критерій, як відношення сигнал-шум квантування (ОСШК), що цілком задовільно оцінює якість неадаптивних, інваріантних до спектра кодеків, що передається, стає некоректним при порівнянні адаптивних диференціальних мовних кодеків. Це з різницею у характері спотворень сигналів.

Таблиця 14.3.

Суб'єктивна оцінка якості звучання мови

Рівень сприйняття мовної інформації

Оцінка за шкалою MOS

Мова не сприймається повністю чи частково

Мова сприймається утруднено,

з напруженою увагою

Мова сприймається вільно, але наявність дефектів незаперечна

Мова сприймається вільно,

визначення дефектів важко

Мова сприймається повністю

і без спотворень

У табл.14.4представлена зведена інформація про найбільш поширені способи кодування мови. Тут оцінка різних методів кодування пов'язані з сприйняттям промови людиною, тобто. із середніми суб'єктивними оцінками за шкалою MOS.

Таблиця 14.4.

Метод кодування РС

Стандарт / Рік прийняття

Цифрова швидкість, кбіт/с

Оцінка якості за шкалою MOS

Так, при точному квантуванні в ІКМ шум можна вважати стаціонарним процесом із рівномірною спектральною щільністю потужності (СПМ). У той самий час при адаптивному квантуванні, коли крок квантування змінюється відповідно до дисперсією нестаціонарного РС, дисперсія помилки квантування виявляється із нею пов'язаної, тобто. шум квантування стає також нестаціонарним. Зазвичай ОСШК не враховує ні спектральних співвідношень сигналу і шуму, ні їхнього нестаціонарного характеру. При суб'єктивному сприйнятті важливе співвідношення як дисперсій, а й СПМ РС і шуму. Тому за основу об'єктивного критерію, що враховує властивості слухового сприйняття, слід прийняти оцінки короткочасних СПМ РС і помилки квантування. Коректність критерію якості передачі характеризується кореляцією об'єктивних оцінок, обчислених з його використанням, та суб'єктивних оцінок якості передачі.

Об'єктивна оцінка якості РС може проводитися як у часовій області, так і частотної області. У часовій області критерієм якості є ОСШК. У адаптивних мовних кодеках крок квантування змінюється відповідно до дисперсії РС, тому дисперсія помилки квантування залежить від дисперсії РС. При дослідженнях таких кодеків важливими є значення короткочасних ОСШК, обчислених на коротких сегментах РС тривалістю 10.30 мс. Таке сегментне ОСШК враховує сегментний характер слухового сприйняття елементів мовиі є кращим заходом спотворень, коли паузи в РС не враховуються. Однак, щоб їх ігнорувати, вони повинні бути виявлені.

При кодуванні з адаптивним пророкуванням параметри провісника змінюються відповідно до короткочасної СПМ РС, що робить необхідним облік сегментно-спектрального характеру слухового сприйняття в межах тимчасового сегмента РС. Оскільки область чутних частот поділяється на критичні смужки, то кожній їх встановлено оптимальне для слухового сприйняття співвідношення спектральних потужностей сигналу і помилки квантування. З погляду простоти обчислень, тривалості необхідного для аналізу мовного матеріалу (близько 3 с, тобто одна - дві фрази), а також гарною кореляцією з об'єктивними оцінками якості показник якості на основі сегментного ОСШК може розглядатися як ефективний інструмент при дослідженнях кодеків різних типів.

У частотній області критерієм якості є ступінь спотворення спектральної огинаючої. Було встановлено, що використання критерію якості частотної області більшою мірою відповідає суб'єктивним оцінкам, ніж критеріям у часовій області. Так, при оцінці якості звучання сигналу у вокодерних методах передачі, де форма реалізацій мовних сигналів у дискретному часі на вході кодера xt та виході декодера xt* може суттєво відрізнятися, основним показником є близькість оцінок СПМ xt та x*t. Існує безліч показників, які контролюють цю близькість. Зокрема, визначення критерію якості частотної області базується на LPC кепстральном відстані (CD). (Термін "кепстр" було введено в США на початку 60-х років і є в даний час загальноприйнятим для позначення зворотного перетворення Фур'є логарифму спектра потужності сигналу).Спектральне спотворення як міра якості мови визначається через спектральне відстань між спектром вхідного і вихідного сигналів. У свою чергу мірою спектральної відстані служить кепстральна відстань CD.

Цей метод використовують із оцінки якості РС у системі лінійного передбачення. Він трохи відрізняється від суб'єктивного методу MOS (коефіцієнт кореляції між цими методами близько 0,96) - що більше кепстральное відстань CD, то нижча середня оцінка думок MOS. Така залежність справедлива як для систем LPC, а й ІКМ, АДИКМ та інших систем.