Залежність від мовного суб’єкта (ДИКТОРА) Системи розпізнавання мови відрізняються декількома

Системи розпізнавання мовлення відрізняються кількома параметрами. Залежність від диктора визначається тим, якою мірою система використовує дані про характеристики голосу певної людини, що працює з цією системою (або групи людей). Системи, що залежать від диктора («суб'єктозавісні» системи), розпізнають мову тільки тієї людини, зразки промови якої містяться в системі. Більшість сучасних систем розпізнавання мовлення є суб'єкта залежними. Незалежні від диктора («суб'єктонезалежні») системи теоретично здатні розпізнавати мову, вимовлену будь-якою людиною певною мовою. Суб'єктоне-залежне розпізнавання мови поки що можливе для невеликих словникових наборів з 10-20 фрагментів мови. Насправді точність розпізнавання залежить від подібності мовних показників групи людей, використовують дану систему розпізнавання. Так звані суб'єкт-незалежні системи можна було б ще називати системами розпізнавання з груповою залежністю від користувачів. Чим менша мінливість характеристик групи дикторів, тим вище середня точність розпізнавання для групи користувачів системи. Наприклад, мова, що вимовляється з іноземним акцентом, розпізнається менш надійно, ніж мова, вимовлена з акцентом, стосовно

Таблиця 3.1. Рівні лінгвістичної мінливості

Лінгвістичний рівень Приклад

Сімейство мов Сімейство романських мов

Французька мова

Діалект Паризький діалект французької мови

Мовні особливості Мова певної жінки

поводження з гнівною скаргою на помилку у виставленому рахунку

якого ця система була розроблена. Крім того, на практиці суб'єкти незалежних систем важковідрізняють мовлення чоловіки від мови жінки. Наприклад, суб'єкт-незалежна система, призначена для розпізнавання мови тільки чоловіків або жінок, забезпечуватиме більш високу точність розпізнавання, ніж система, призначена для розпізнавання мови і чоловіків, і жінок.

Аналогічні мовні особливості можуть групуватися згідно з різними ознаками, наприклад, за статтю, акцентом або діалектом.

Існуюча практика поділу систем розпізнавання на суб'єкти і суб'єкти незалежно значно звужує можливий діапазон мінливості мови, що розпізнається. Навіть системи, що залежать від диктора, здатні розпізнавати мовлення людей, не зареєстрованих у системі, проте точність розпізнавання буде низькою. В основі відмінностей між суб'єктозалежними та суб'єктонезалежними системами лежить, головним чином, інженерна стратегія завдання еталонів (шаблонів). Такий підхід створює невірне уявлення про діапазон мінливості мови та визначальні його фактори: місцевий акцент, поле мовця, напругу або робоче навантаження, страх і т. д. Дві головні проблеми створення систем розпізнавання мови - це облік мінливості мови людини і великий обсяг словника. Успіхи у цих галузях залежатимуть від фундаментальних досліджень у лінгвістиці всіх рівнях структури мови.

Ще одним параметром систем розпізнавання є тональність мови, тобто спосіб повідомлення мовних фрагментів системи. Найбільш поширені системи з роздільною вимовою слів. У таких системах користувач повинен робити коротку паузу (

100 мс) між вимовними мм словниковими елементами. Системи іншого типу здатні розпізнавати слова межах цілісного фрагмента мови, у якому слова не розділені штучної паузою. Однак при цьому окремі словавимовляються в тому самому інтонаційному стилі так, ніби вони читалися за списком. Термін "розпізнавання злитої мови" часто використовують, коли говорять про розпізнавання фрагментів мови без штучних пауз між словами. У цьому розділі термін «розпізнавання злитої мови» служить для позначення розпізнавання фрагментів мови, що вимовляються у природному мовному ритмі з природною інтонацією (просодія). Розглянутий термін додає ще один параметр завдання розпізнавання. Він був використаний для посилання на системи, які намагалися коректно виконувати завдання із використанням безперервного мовного введення. Мірою успішного функціонування таких систем є скоріше точність відповіді, а чи не точність розпізнавання слів чи точність розпізнавання повідомлень. Спрощено такі системи можуть бути названі системами, які розуміють, що їм говорять, і присвоюють сенс повідомленням, які вони приймають.

Третім параметром є обсяг словника (словниковий запас). У системах розпізнавання мовлення з фіксованим словниковим запасом повинні зберігатися зразки слів і фраз, що підлягають розпізнаванню. При цьому автоматичні системи виконують «акустичне» зіставлення зі зразком на рівні слів і фраз і, як правило, їх словники містять 100—200 фрагментів мови. Для систем розпізнавання з необмеженими словниками розробляються алгоритми, які аналізують мову лише на рівні фонетичних сегментів, визначають сказані слова і, можливо, генерують орфографічно коректний текст.