Кодування мови в цифрових системах зв’язку - реферат, курсова робота, диплом, 2017
Усі додатки, графічні матеріали, формули, таблиці та малюнки роботи на тему: Кодування мовлення у цифрових системах зв'язку (предмет: Комунікації, зв'язок, цифрові прилади та радіоелектроніка) знаходяться в архіві, який можна завантажити з нашого сайту. Приступаючи до прочитання цього твору (переміщаючи смугу прокручування браузера вниз), Ви погоджуєтесь з умовами відкритої ліцензії Creative Commons Attribution (Атрибуція) 4.0 Всесвітня (CC BY 4.0) .
Контрольна робота на тему:
Кодування мови у цифрових системах зв'язку
1. Постановка задачі
Переваги цифрових методів подання, обробки, передачі та зберігання інформації, бурхливий розвиток цифрової елементної бази - все це сприяє тому, що цифрові методи обробки та передачі стали основним напрямом систем зв'язку. При цьому використання цифрових методів подання, обробки та передачі інформації призводить до багаторазового збільшення займаної смуги частот. Вирішення проблеми лежить у галузі розробки ефективних методів стиснення (кодування) різних повідомлень. Насамперед сказане відноситься до мовних повідомлень.
Слід одразу розмежувати завдання при передачі мови та даних:
- У разі передачі даних прагнуть забезпечити максимальну швидкість передачі у заданій смузі частот.
- У разі передачі мовних повідомлень, навпаки, прагнуть зменшити швидкість цифрового потоку і цим зменшити необхідну смугу частот.
Мова, на відміну від даних, має смислову та сигнальну надмірність. Різні методи усунення надмірності (кодування) у процесі перетворення мовного сигналу представляють широкий діапазон можливих швидкостей передачі (від 64кбіт/с приблизно до 200 біт/с).
Для цифрової передачі мови необхідно зробити оцифровування аналогового сигналу та закодувати кожну вибірку двійковим кодом. Для аналого-цифрового перетворення, очевидно, необхідно задати частоту дискретизації і число рівнів квантування. Розглянемо найпростіший приклад перетворення аналогового мовного сигналу на цифрову форму без усунення надмірності:
- Згідно з міжнародним стандартом, для хорошої якості передачі мови, достатня смуга частот 300 – 3400 Гц. Тоді частота дискретизації згідно з теоремою Котельникова має бути обрана з умови. Враховуючи неідеальність фільтра на вході АЦП частоту дискретизації вибирають із деяким запасом.
- Для високої якості передачі досить квантувати аналоговий сигнал з використанням 13 розрядів (біт) двійкового коду, тобто. із використанням рівнів. Сказане відноситься до випадку рівномірного квантування.
- Тоді швидкість цифрового потоку на виході такого найпростішого кодера.
Чи багато це чи мало? Наприклад, у стандарті рухомого стільникового зв'язку GSM використовується частотна маніпуляція з мінімальним зсувом ЧММН і гаусовим передмодуляційним фільтром - модуляція GMSK (Gauss minimum shift keying). Спектральна ефективність такої модуляції дорівнює. Значить організації однієї каналу передачі промови знадобиться смуга частот приблизно 104 кГц. А якщо додати до отриманого цифрового потоку ще контрольні біти (для забезпечення завадостійкого кодування) та біти управління, то необхідна смуга частот ще більше збільшиться. Така величезна смуга частот – надто велика ціна за цифрову якість зв'язку.
З усього сказаного можна дійти невтішного висновку - завданням мовного кодера є мінімізація швидкості цифрового потоку своєму виході,Вочевидь за збереження високої якості передачі промови.
1. Кодери форми сигналу - це кодери, що мають на виході швидкості цифрового потоку в діапазоні 64 - 16 кбіт/с та використовують методи імпульсно-кодової модуляції (ІКМ), диференціальної ІКМ (ДІКМ), дельта-модуляції (ДМ), а також модифікації вказаних методів.
2. Вокодери (Voice Coder) - це кодери, що мають на виході швидкості цифрового потоку до 1.2 кбіт/с і забезпечують кодування спектра мовного сигналу та відновлення аналогового сигналу, що звучить подібно до оригіналу, але не повторює його форми.
3. Гібридні кодери.
2. Кодери форми сигналу
Кодери форми сигналу не є специфічними для мови в тому сенсі, що вони з успіхом працюють з будь-якою формою сигналу та їх характеристики обмежені лише діапазоном зміни амплітуд (динамічний діапазон) та шириною смуги частот вхідного сигналу. Кодери форми зберігають обгинальну форми сигналу.
Імпульсно-кодова модуляція(ІКМ або PCM - Pulse Code Modulation) - перший світовий стандарт кодування мови зі швидкістю 64 кбіт/с.
Можливість такого стиснення викликана двома факторами:
1) Чутливість людського вуха знижується зі збільшенням рівня звуку. Значить, мінімальна зміна рівня звуку при великому його абсолютному значенні практично невиразна. Тому без шкоди якості можна скоротити кількість рівнів квантування у сфері великих амплітуд.
2) У мовних сигналів максимум функції розподілу ймовірності перебуває у початку координат, тобто. сигнали з малими амплітудами зустрічаються частіше, ніж з великими. А це наштовхує на думку, що можна майже не погіршити якість квантувати великі амплітуди з меншою точністю, ніж малі.
Нерівномірне квантування реалізується наступнимчином: вхідний аналоговий сигнал надходить на нелінійний пристрій (компресор), яке стискає рівні сигналу.
Амплітудна характеристика компресора має вигляд (рис. 1):
Потім сигнал надходить на рівномірний квантувач. У приймачі сигнал із виходу ЦАП надходить на експандер. Комбіновану пару компресор-експандер називають також компандером.
Ці обставини дозволяють зменшити необхідну кількість біт на вибірку (при збереженні тієї ж якості) до 8.
Диференціальна імпульсно-кодова модуляція(ДИКМ чи DPCM - Differencial PCM).
У методі ДИКМ зниження надмірності мовного сигналу використовується наявність кореляції між сусідніми отсчетами. Наявність кореляції дає можливість передбачати наступні відліки за попередніми (рис. 2).
Тут є -й відлік вхідного сигналу,
- Передбачене значення -го відліку вхідного сигналу,
- Помилка передбачення -го відліку.
Функція провісника у разі - проаналізувати попередні відлікові значення сигналу і спрогнозувати наступні.
У системі з ДИКМ кодуванню та передачі каналом зв'язку підлягають не самі відліки (вибірки) сигналу, а помилки передбачення. У випадку, коли параметри пристрою прогнозування адекватні властивостям мовного сигналу, вдається зменшити динамічний діапазон помилок прогнозування порівняно з динамічним діапазоном сигналу мовлення. А це дозволяє зменшити кількість рівнів квантування і, відповідно, кількість бітів на вибірку та швидкість цифрового потоку на виході кодера.
У декодері проводиться зворотна операція та відновлення відліку мовного сигналу помилково передбачення (рис. 3).
Як пристрій передбачення зазвичай використовується нерекурсивнийцифровий фільтр, або трансверсальний фільтр:
Сигнал на виході такого фільтра являє собою передбачене значення - го відліку вхідного сигналу - зважену лінійну комбінацію відліків (рис. 4):
де - Коефіцієнти посилення фільтра або коефіцієнти моделі передбачення.
Величини коефіцієнтів вибираються таким чином, щоб мінімізувати середньоквадратичну помилку
При використанні кодування мови методу ДИКМ число біт квантування вибірку знижується до 4-6 (32-48 кбіт/с).
Подальше зниження швидкості цифрового потоку на виході кодера досягається за рахунок використання адаптивного варіанта ДИКМ.
Адаптивна диференціальна імпульсно-кодова модуляція(АДИКМ чи ADPCM) - одне із найбільш загальноприйнятих і широко використовуваних стандартів стиснення (кодування) мови зі швидкістю 24-32 кбіт/с.
Кодери на основі ДІКМ розробляються у припущенні, що вихід джерела повідомлень стаціонарний. Насправді - це нестаціонарний випадковий процес, тобто. її дисперсія, спектр та автокореляційна функція змінюються у часі. Тому для ефективного кодування необхідно постійно відстежувати такі зміни. У методі АДІКМ на відміну від ДИКМ здійснюється адаптивне налаштування кроку квантування сигналу помилки провісника, а також автоматичне налаштування коефіцієнтів нерекурсивного фільтра провісника відповідно до зміни поточного спектра мовного повідомлення. Дані заходи дозволяють мінімізувати динамічний діапазон помилки передбачення та необхідну кількість рівнів квантування.
При кодуванні мови з використанням АДИКМ для високої якості відновленого мовлення потрібно використовувати лише 3-4 біт на вибірку.
Дельту модуляцію можна розглядати як різновид ДИКМ,у якій використовується дворівневий квантувач у поєднанні з провісником першого порядку. Таким чином, спрогнозоване значення - це просто затриманий на один такт минулий відлік.
Цей вид кодування є ефективним у разі, коли різниця амплітуд між сусідніми відліками мала. Цього досягають стробуючи аналоговий мовний сигнал із частотою в 4-6 разів більшою, ніж частота Найквіста. Тоді швидкість видачі інформації кодером становить 32-48 кбіт/с.
Мовному кодеру на основі Дельта-модуляції властиво два види спотворень:
- перевантаження по нахилу
Викликається розміром кроку квантування, який занадто малий, щоб відстежувати сигнал із різким нахилом.
Викликається розміром кроку квантування, який дуже великий, щоб відстежувати сигнал із малим нахилом.
Для усунення зазначених недоліків застосовують змінний крок квантування, т. е. змінюють його адаптивно тим чи іншим способом у бік мінімізації загального середнього квадрата помилки від двох зазначених чинників.
3. Дискретна модель мовлення
Дослідження статистичних характеристик мовних сигналів виходить з математичному описі акустичного процесу речеобразования, що у своє чергу грунтується на фізичних процесах речеобразования.
У представленій моделі можна виділити дві системи - модель збудження та модель випромінювання (рис.5).
У разі вокалізованих звуків джерело збудження має формувати квазіперіодичну послідовність імпульсів із частотою основного тону. Тому модель збудження для випадку вокалізованих звуків можна подати у вигляді (рис. 6):
У разі невокалізованих джерело збудження формує випадкове шумове коливання. Тоді модель збудження длявипадки невокалізованих звуків можна уявити у вигляді (рис. 7):
Коефіцієнти посилення та визначають інтенсивність голосового збудження (гучність звуку).
Аналогічно модель випромінювання може бути представлена у вигляді (рис. 8):
Модель голосового тракту повністю характеризується передатною функцією, полюси якої відповідають резонансам (формантам) мовного сигналу, а нулі - антирезонансам (провалам) у спектрі мовного сигналу. Причому модель голосового тракту з урахуванням лише полюсів вже дає в більшості випадків досить точний опис голосового тракту для більшості звуків мови.
Таким чином, результуюча передатна функція процесу мовлення записується в наступному вигляді:
Для вокалізованих звуків, що повільно змінюються у часі, розглянута модель мовлення утворюється досить точною. Для невокалізованих звуків, що швидко змінюються у часі (оскільки вони шумоподібні), дана модель буде адекватною тільки для дуже коротких у часі реалізацій (фрагментів) мови. У будь-якому випадку параметри моделі мовлення (частота основного тону, коефіцієнти посилення, параметри голосового тракту) оновлюють протягом кожних 10-20 мс. І тому використовується так званий короткочасний аналіз промови.
Основним завданням більшості систем синтезу та аналізу мови (у тому числі і систем кодування мови з використанням вокодерів) є оцінка параметрів у моделі мовлення за реальною мовою.
4. Метод короткочасного аналізу
Як було сказано, мова - це нестаціонарний випадковий процес. При цьому на інтервалах 10-20 мс її можна розглядати як локально стаціонарний випадковий процес. Відповідно до методу короткочасного аналізу потік відліків мовного сигналурозбивається на часові вікна, звані також сегментами чи вікнами аналізу. Ці тимчасові вікна можуть у принципі відповідати як окремим фонемам, і складам і навіть цілим словам, але забезпечення більшої ефективності аналізу вибираються у межах стаціонарності промови (10-20 мс). Кожен сегмент мови піддається аналізу, у процесі якого обчислюються такі його характеристики, як енергія, число перетинів нуля, поточний спектр.
Наприклад, енергія фрагмента мови, що складається з відліків визначається виразом:
де - Значення амплітуди-го відліку.
Число перетинів нуля може бути обчислено за такою формулою:
На основі обчислення енергії фрагмента мови та числа перетинів нуля кожне вікно аналізу можна віднести до одного з трьох типів:
1. вокалізоване – вікно V
2. невокалізоване – вікно N
3. пауза – вікно P
Алгоритми поділу часових вікон за типами V, N, P зазвичай ґрунтуються на порівнянні отриманих значень енергії та числа перетинів з деякими пороговими значеннями, отриманими експериментально.
1. Якщо , вікно типу P.
2. Якщо , то якщо - вікно типу V
Інакше – вікно типу N.
Після розбиття потоку відліків мовного сигналу на вікна V, N, P в межах кожного вікна обчислюються параметри моделі мовлення, які використовуються для кодування мовлення в передавачі та синтезу мовлення в приймачі.