Мультимедійна база даних мови, що зникає

Мультимедійна база даних зникаючої мови

Справжня публікація розповідає про розробку модельного зразка мультимедійної бази даних зникаючої мови, що здійснюється в рамках проекту “Говори північних сількупів: порівняльний опис та база даних звукових файлів”, роботу над яким розпочато у 2001 р. у лабораторії автоматизованих лексикографічних систем Науково-дослідних установ ім. М.В.Ломоносова за фінансової підтримки українського фонду фундаментальних досліджень [1] . Сучасні технології дозволяють по-новому підійти до збирання, зберігання та аналізу інформації з зникаючих мов, документація яких є одним із найнагальніших завдань сучасного мовознавства. Створювана база даних розглядається як одна з можливих форм оптимізації впорядкування, зберігання та аналізу відповідної інформації.

Загальні відомості про проект “Говори північних селькупів”

Метою проекту є порівняльний синхронний опис сучасних говірок північного діалекту селькупської мови на фонетичному, граматичному та лексичному рівні. На прикладі північного діалекту селькупської мови передбачається дослідити тенденції розвитку локальних варіантів мови без письмової традиції за умов інтенсивних контактів коїться з іншими, зокрема й функціонально набагато розвиненішими мовами. Те, що в літературі нині прийнято називати північним (тазовсько-туруханським) діалектом [Хелімський 1993] або прислівником [Хелімський 1994] селькупської мови, існує як сукупність взаєморозуміних локальних варіантів - говірок, що функціонують у кількох селищах на території Красносількупського -Ненецького автономного округу та Туруханськогорайону Красноярського краю На сьогоднішній день реально функціонують, хоча і в різній мірі, чотири говірки:середнетазовська говірка (пос. Красносількуп і Сидорівськ Красносількупського району; дуже близьким варіантом цієї говірки є говірка нечисленних селькупів сел. Радянська річка Туруханського району - вихідців з с.Янов Стан),верхнетазовський говірка (пос. Ратта і Толька Красносількупського району; нечисленні носії цієї говірки - вихідці з Ратти живуть також у селищах Туруханського району, розташованих на Єнісеї - Сургутиху, Бакланіху, Верещагіному),баїшенська говірка (пос. Фаркове Туруханського району),верхнетолькінський говірка (пос. Толька Пуровського району; носії цієї говірки - вихідці їх Пуровської Тільки живуть і в інших селищах Пуровського району - Халясавей, Харампур, Бистринка, а також у райцентрі Тарко-Салі).

Як матеріал при реалізації проекту передбачається використовувати:

1) шість корпусів фольклорних і побутових текстів загальним обсягом понад 60000 слововжитків, записаних протягом XX століття і що представляють всі чотири основні говірки північних селькупів;

2) аудіозаписи фольклорних та побутових текстів, зроблені в 1996-2000 pp. і також відбивають, хоча й по-різному, всі чотири названих вище говірки;

Оскільки основні відмінності між говірками спостерігаються на фонетичному рівні, саме цей рівень буде досліджено особливо ретельно, хоча граматичні та лексичні відмінності також фіксуватимуться та описуватимуться.

Мультимедійна база даних як найважливіша складова проекту

Графічна складова мультимедійної бази даних північного діалекту селькупської мови, що розробляється, найбільш представницька. Це вже згадане вище шістькорпусів фольклорних текстів, записаних протягом XX століття (1925-2000 рр.) і відбивають всі чотири говори, що розглядаються. Кожен із корпусів організований у вигляді текстової бази даних. Крім селькупських текстів, у базі зберігається пофразовий переклад цих текстів українською мовою. Ж.Г.Аношкіної розроблено пакет програм, що дозволяє працювати з паралельними текстами та отримувати конкорданси з перекладом селькупських контекстів українською мовою. Приблизно третину загального обсягу корпусу текстів відлематизовано, причому лематизація проводилася автоматизовано (Ж.Г.Аношкіної були написані для цього спеціальні програми) з наступною ручною корекцією. Крім того, є словникова база даних, що включає граматичний словник ряду текстів і тезаурус фольклорних реалій [3] . Словникові основи пов'язані з текстовими.

Істотною складовою бази даних має стати озвучений словник говірок північних селькупів. Передбачуваний обсяг словника - 300-400 лексем, за кожної з яких будуть наведені всі словоформи, що зустрілися в аналізованих текстах.

Після закінчення проекту (який розрахований на три роки) буде вироблено рекомендації щодо оптимальної організації мультимедійної бази даних як сховища лінгвістичної інформації та інструменту її (цієї інформації) аналізу.

Казакевич О.А. Автоматичний тезаурус мови фольклору північних сількупів // Праці Міжнародного семінару Діалог'99 з комп'ютерної лінгвістики та її додатків. Том 2. Програми. Таруса, 1999. С. 92-97.

Казакевич О.А. Шаманська лексика в автоматичному тезаурусі фольклору північних сількупів // Праці міжнародного семінару Діалог'2000 з комп'ютерної лінгвістики та її додатків. Том 1. Протвіно, 2000. С. 127-132.

Хелімський Є.А. Селькупська мова // Мови світу:Уральські мови М.: Наука, 1993. З. 356-372.

Хелімський Є.А. Селькупська мова // Червона книга мов народів України. Енциклопедичний словник-довідник М.: Academia, 1994. С. 48-49.

[1] Дослідницький проект №01-06-80363.

[2] В останні десятиліття з'явилися звукові комп'ютерні архіви окремих малих мов, проте вони нечисленні. Як приклад можна назвати озвучений словник ненецької мови, робота над яким ведеться на кафедрі фонетики Санкт-Петербурзького державного університету [Люблінська 2000].

[3] Про комп'ютерний тезаурус селькупського фольклору див [Казакевич 1999; 2000]

[4] Редактор WinCecil був розроблений співробітниками Літнього лінгвістичного інституту (Summer Linguistic Institute) спеціально для аналізу "малих" мов.

[5] Крім того, зняті матеріали за відповідної якості монтажу можуть стати вкладом у розвиток візуальної антропології.