І. В. Самаріна (Irina Samarina)

Зміст

(Проект завершено – нехай живе новий проект!) 1

Corpus Linguistics, Computer Lexicography, Multimedia Technologies and Endangered Languages

(A Project is realized, Long Live the Project!)

О. О. Казакевич (Olga Kazakevich)

Науково-дослідний обчислювальний центр МДУ ім. М.В. Ломоносова

Л. М. Захаров (Leonid Zakharov)

Філологічний факультет МДУ ім. М.В. Ломоносова

І.В. Самаріна (Irina Samarina)

Інститут мовознавства РАН

Д.Л.Трушков (Dmitriy Trushkov)

ТОВ ЛУКойл-нафтохім

На закінчення доповіді передбачається розповісти про новий проект «Мультимедійна база даних кетської мови», над яким група почала працювати в 2004 р. (грант РГНФ № 04-04-12028в) і який також пов'язаний із документацією мов, що зникають, і організацією мультимедійного комп'ютерного архіву.

The paper presents some results of the project “Local dialects of the Northern Selkups: a contrastive description and data base of sound files” which has just been finished with financial support of Russian Foundation of Fundamental Studies, grant N 01-06-80363 ). Досвідчений, незважаючи на те, що реалізує проект, дозволяючи певним загальним принципам відзначити принципи створення тексту корпорації і комп'ютерних речей з мовами, що функціонують в основному або послідовно в оральній формі під стійким домінуванням сфери і обсягом їх функціонування, так в комп'ютерні технології. Принципова частина проекту була зайнята сфероюроботи, що збирається в колективному лінгвістичному, соціологічному, і етно-лінгвістичному матеріалі, що є, нескінченною мовою документації. Під час сферироботи we also tried to use modern technology for fixation of theматеріал: цифрові аудіо- та відеомагнітофони. Ми вважали дуже важливим відобразити в комп’ютерній базі даних весь спектр функціонування мови – від мовлення літніх повномовців (записи спонтанного мовлення та фольклору) до мовлення молодих людей, які погано володіють своєю національною мовою. Це дає можливість краще зрозуміти природу не лише зовнішніх змін обсягу мовного функціонування, а й змін у структурі мови, які відбуваються літературно на наших очах. У ході роботи над проектом створено «Звуковий словник місцевих говірок північних селькупів». Запис матеріалів для цього словника, спрямований, як спочатку здавалося, виключно на збір лексики, виявився цінним матеріалом про функціонування мови на всіх рівнях мовної структури. Крім того, оскільки ми використовували один і той самий список слів, працюючи з усіма нашими інформантами (і ми зробили записи від понад 40 мовців, приблизно по 10 мовців для кожного місцевого діалекту), зібрані дані легко порівняти як у різних вікових групах в межах одного діалекту, так і між а також різні діалекти. Таким чином, побічним продуктом реалізації проекту є своєрідне тестування сучасної мовної компетенції носіїв досліджуваних місцевих діалектів, що видається необхідним для адекватної оцінки ситуації кожного діалекту та перспективи його майбутнього функціонування. Презентація доповіді включатиме демонстрацію аудіо- та відеоматеріалів обговорюваної комп’ютерної бази даних.

На закінчення буде представлено новий проект «Мультимедійна база даних Кет» (проект реалізується за фінансової підтримки Російського фонду підтримки гуманітарних наук, грант N 04-04-12028). ЦеКрім того, застосовується документація про нескінченну мову (цього часу це Кет) і організація з комп'ютерного архіву.

Про хід реалізації проекту розповідалося у публікаціях семінару «Діалог» [Казакевич 2001; Казакевич та ін. 2002]. Тут ми зосередимося на загальних підсумках та «побічних результатах», а також на отриманому досвіді, який можна використовувати при роботі над аналогічними проектами. Насамкінець розповідається про новий проект, у роботі над яким ми якраз і збираємося використати наш досвід, отриманий за три попередні роки.

У нашій країні це не перший проект створення озвучених словників. У Санкт-Петербурзі створено озвучені ненецький та нганасанський словники та ненецько-український розмовник (див. [Люблінська 2000]). Відмінність нашої бази від названих проектів полягає насамперед у тому, що аудіоматеріали, що до неї увійшли, є не читанням дикторами записаного заздалегідь словника або тексту, а не пов'язане з письмовим текстом вільне (нерідко спонтанне) виголошення слів, речень, а іноді й цілих текстів . Нам ця відмінність видається дуже суттєвою. Крім того, велика кількість представлених у базі дикторів дає можливість проводити аналіз варіативності вимови та меж цієї варіативності.

2. Структура бази даних та програмне забезпечення

Відеоряд в базі на даний момент обмежується портретами всіх дикторів, а також пейзажами місць розповсюдження кожного з говірок. До кожного диктора наводиться також його лінгвістична біографія.

Словникова база даних побудована як гіпертекстового документа з метою полегшення роботи кінцевих користувачів, незалежно від програмного забезпечення їх комп'ютерів. Початковий варіант бази був об'ємною зведеною таблицею з різнимивходами пошуку (за говіркою, українським, англійським або селькупським словом) (див. [Казакевич та ін. 2002]). Невід'ємною частиною бази були фонетичні (звукові) фрагменти, що містять триразове виголошення одного слова одним диктором. При збільшенні обсягу інформації стало очевидно, що двовимірна зведена таблиця не може бути адекватно сприймається користувачем (оскільки займає кілька екранів по горизонталі та по вертикалі), а великий обсяг аудіоінформації веде до надмірного уповільнення роботи з базою через Інтернет. У новій версії було зроблено зміни структури бази, спрямовані насамперед на полегшення роботи зі словником кінцевого користувача. По-перше, всі таблиці виконані із застосуванням фреймової архітектури, що дозволяє мати перед очима назви колонок і рядків у великих таблицях. По-друге, великі зведені таблиці сформовані таким чином, щоб користувач міг швидко отримати елемент, що його цікавить (слово, диктор, говірка) при вході в базу по будь-якому з можливих елементів. При цьому, при необхідності, користувач може, як і попередньої версії, отримати всю зведену таблицю. По-третє, до бази додано графічні (текстові) і фонетичні (звукові) фрагменти, що складаються з більш ніж одного слова (словосполучення та речення). Пошук цих додаткових фрагментів можливий із будь-якого місця бази, що містить ключове слово-вхід (українське, англійське чи селькупське). Таким чином, за рахунок внесення змін до структури бази даних вдалося досягти збільшення швидкості обробки запитів при різкому збільшенні обсягу самої бази. Це особливо помітно при доступі через повільні канали зв'язку, такі як комутований доступ до мережі Інтернет.

3. Збір та первинна обробка матеріалу для бази даних

Незважаючина використання сучасної звукозаписної техніки, отримання якісного представлення «словника, що звучить», селькупської мови на CD і в Інтернеті пов'язане з певними труднощами.

1. Інформанти є професійними дикторами. Тому вони не можуть вимовляти весь матеріал з однаковою гучністю та темпом. Навіть просте завдання повторити слово по-сількупськи тричі з паузами для деяких інформантів є складним завданням. Якщо привести гучність до прийнятного значення можливо, так само як і вирізати зайві паузи, то розбити паузою разом слова неможливо через явища коартикуляції - якість останнього звуку в слові змінюється під впливом першого звуку наступного слова.

2. Інформанти, які добре володіють мовою – це представники старшого покоління. На жаль, дикція цих вікових інформантів який завжди задовільна. Молодше покоління гірше володіє мовою і у словнику з'являється багато перепусток.

3. При записах великих словників (а це багатогодинна робота) через постійний ліміт часу неминучі і помилки дослідника, який проводить запис (перепустки окремих слів і навіть фрагментів словника). Не завжди вдається відстежувати рівень запису та коректну роботу мікрофона. Оптимальний варіант роботи - два дослідники (один стежить за якістю та технічними параметрами запису) з одним інформантом - далеко не завжди здійснимо на практиці.

4. Оскільки записи проводяться аж ніяк не в студійних умовах, роботі заважає і «побутовий» шум (наприклад, робота холодильника, коли запис проводиться в будинку інформанта), і шум навколишнього середовища (коли запис проводиться на вулиці, на природі).

5. Якісний у лінгвістичному плані запис можливий лише за умови комфортного стану інформанта.Тому постійні прохання повторити, переговорити слово (через погане вимовлення чи сторонній шум) не завжди бажані.

Робота з підготовки матеріалів для словникової бази («нарізка» звукових файлів — кожен файл це триразове повторення слова по-сількупськи) утруднюється через пошук потрібного слова в записі (іноді кращого варіанта слова), необхідної корекції гучності (у деяких випадках) та вирізування пауз між словами. Цей етап роботи був найбільш трудомістким і зажадав багато часу.

Можливість отримувати якісні записи в польових умовах створила передумови для уточнення звукового складу досліджуваної мови та якісного опису просодичного ладу. Однак слід визнати, що тут ми лише на початку шляху (див. доповідь [Захаров, Казакевич 2004] у цій збірці, а також [Казакевич, Захаров 2001; Захаров, Казакевич 2003].)

4. «Побічні продукти» проекту

Запис матеріалів для Озвученого словника сількупських говірок, спрямований, здавалося б, на збір виключно лексики, виявився способом отримання найцінніших даних про функціонування мови на всіх рівнях. При цьому, оскільки в роботі з усіма інформантами (а їх було більше 40 осіб, приблизно по 10 осіб на кожну з чотирьох говірок) використовувався один і той же словарь, ці дані легко можна порівняти як за віковими групами в межах однієї і тієї ж говірки, так і між говірками. Таким чином, побічним продуктом проекту стало щось на зразок тестування мовної компетенції носіїв обговорюваних говірок, що дуже важливо для оцінки реального стану мови та перспектив її подальшого функціонування.

Розміщення мультимедійних матеріалів з малої мови в Інтернеті, окрім іншого, об'єктивно працює напідвищення престижу цієї мови у власних очах його носіїв, передусім, молоді, що важливо задля збереження внутрішньосімейної передачі від батьків до дітей там, де ця передача ще існує, і навіть підвищення мотивації дітей, вивчають мову у шкільництві.

Нарешті, створена база даних може бути використана як навчальний матеріал

задля загальної лінгвістичної підготовки студентів філологічних факультетів університетів;
для підготовки фахівців із селькупської мови;
для викладання селькупської мови у школі.

В даний час розроблено програму подальшого розвитку бази даних та створення серії навчальних продуктів, безпосередньо з цією базою пов'язаних. На виході ми маємо намір отримати:

2) навчальний посібник із селькупської лексикології як додаток до мультимедійної словникової бази;

5. Мультимедійна база даних кетської мови як спроба зупинити мить мовної реальності

Мультимедійна база даних кетської мови – це спроба зафіксувати мовну реальність, що стрімко зникає, яка стає примарною, і трансформується в квазі-компетенцію у молодших носіїв. Хоча польова робота зі збору кетського лінгвістичного матеріалу в даний час ведеться дослідниками Томського державного педагогічного університету, Інституту філології СО РАН (Новосибірськ) і німецькими лінгвістами, аудіозапис промови, що звучить досі, наскільки нам відомо, носила допоміжний характер, і графічна. Крім того, практично у всіх польових дослідженнях кетської мови, що проводилися до цього часу, як інформанти використовувалися в основному компетентні носії старших поколінь, а «спотворена»мова молодших, не надто компетентних носіїв залишалася поза увагою. При побудові кетской бази однієї з наших завдань ми вважаємо фіксацію мови носіїв мови різних поколінь, які різною мірою володіють мовою. Це дасть змогу виявити динаміку зміни мовної структури у ситуації звуження сфери функціонування мови та суцільного білінгвізму її носіїв. Роботу над організацією бази даних ми маємо намір вести паралельно з її наповненням, причому наповнюватися база має в основному за рахунок збору нових лінгвістичних матеріалів.

Після закінчення проекту буде розширено фактичну основу для можливих узагальнень та рекомендацій щодо оптимальної організації мультимедійної бази даних зникаючої мови як сховища лінгвістичної інформації та інструменту її (цієї інформації) аналізу.

2) Казакевич О.А. Мультимедійна база даних мови, що зникає // Праці Міжнародного семінару Діалог’2001 з комп'ютерної лінгвістики та її додатків. Том 1. Аксакова, 2001. С. 108-110.

6) Нариси 1993 – Кузнєцова А.І., Казакевич О.А., Іоффе Л.Ю., Хелімський Є.А. Нариси з селькупської мови. Тазовський діалект. Том 2. М., 1993.

7) Werner H. Vergleichendes Wörterbuch der Jenissej-Sprachen. Bd. 1-3. Wiesbaden: Harrassowitz Verlag, 2002.