Ідентифікація людини за голосом, Захист інформації

Технологія розпізнавання голосу— можливе найпрактичніше рішення для багатьох додатків. такі системи аналізують характеристики після оцифровування, дивляться висоту, тон і ритм. Схема введення голосових повідомлень показано на рис.1. Незважаючи на зниження надійності у плані розпізнавання з наявністю шумів, це все одно вигідне економічне рішення, оскільки звукові карти та мікрофони вже давно прописані в мережі.

Є багато різних мікрофонів, але принцип роботи у них один. звукова хвиля ударяється об мембрану, де коливання мембрани передаються на пружний елемент, який перетворює коливання в електричний сигнал. Сигнал посилюється та подається на вхід звукової карти. Звукова карта це аналого-цифровий перетворювач. Основні параметри це розрядність кодування та частота дискретизації. Дані параметри на пряму впливають якість записи, а відтак і розмір самої записи. Системи ідентифікації голосу працює за такою схемою:

Створюється реєстрація користувача та робиться розрахунок шаблону.
Вибираються часові діапазони мовного потоку для аналізу.
Реалізується первинна обробка сигналу.
Вважаються первинні параметри.
Створюєтьсявідбиток-шаблон голосу.
Порівнюються шаблон та інші шаблони, що вже є в базі.

При реєстрації користувач вводить свій ідентифікатор, наприклад ПІБ і говорить кілька разів ключову фразу. Після першої обробки фрагменти порівнюються і обчислюються подібності для відбитка.

При виборі ділянок фрагментів застосовують різні способи. Можна використовувати весь мовний потік, крім паузи. Можна ж вибрати фрагменти де найпотужніші звуки, тому що там ймовірність шумівмаленька. Також можна вибирати голосні звуки, оскільки за ними можна визначити характер вимови тощо.

На рис.2. показує ймовірність присутності певних особливостей голосу особистості в 18 фонемах.

У процесі першої обробки сигналу відбувається аналіз спектральних параметрів мови. Базовою процедурою є вузькосмугова фільтрація сигналу та відновлення огинаючої. При вимові контрольної фрази сигнал наводиться до єдиного масштабу амплітуд за рахунок підсилювача. Первинні параметри сигналу мають властивості:

відображення індивідуальності диктора
не залежати від шумів
легко виділяються із сигналу
бути незалежними до фізичного та емоційного стану диктора
мало піддаватися імітації

Первинні параметри можуть використовувати АЧХ, тло, відстань між обертонами, форманти, тривалість окремих звуків тощо. При вимові паузка між звуками може змінюватися в межах 10-50%. Для компенсації такої нестабільності можна використовувати такі способи:

Стиснення або розтягування окремих ділянок.
Виділення центру звукової області, тоді виміри навколо центру відіграють сильну роль.

Недоліком таких систем є те, що таємну фразу складно зберегти в таємниці. Так як при вимові фрази її можна записати різними пристроями, що радіозаписують. Голосовий шаблон займає приблизно 2-5 Кбайт, а фраза триває не більше 2-3 секунд.