Електронний корпус хакаської мови

Електронний корпус хакаської мови було створено в рамках програми Президії РАН «Корпусна лінгвістика», напрямок «Створення та розвиток корпусних ресурсів з мов народів України» (докладніше); в даний час підтримується на кошти гранту РДНФ № 15-04-12030 «Система автоматичного морфологічного та синтаксичного аналізу для корпусів міноритарних тюркських мов України» та Програми ОІФН РАН «Євразійська спадщина та її сучасні смисли», Напрямок 4. Мультимедіа проекти "Розвиток корпусів міноритарних тюркських мов України"), а також за підтримки проекту «Мовне та етнокультурне розмаїття Південного Сибіру в синхронії та діахронії: взаємодія мов та культур», що виконується на базі Томського державного університету (грант Уряду Україна № 14.0). ). А.В. Дибо (д.ф.н., чл.-кор. РАН, зав. Відділом урало-алтайських мов Інституту мовознавства РАН) є одним з координаторів цього напряму та керує проектом «Корпуса міноритарних тюркських мов» (співкерівник: Н.М. .Широбокова, д.ф.н., проф., завідувач Відділом мов народів Сибіру Інституту філології СО РАН).

Основні виконавці проекту, що працюють над корпусом хакаської мови:

  • Шеймович Олександра Валеріївна, м. н. Інституту мовознавства РАН
  • Чебодаєва Лариса Іллівна, к.ф.н., зав. кав. Інституту Саяно-Алтайської Тюркології Хакаського Державного Університету
  • Киржинакова Ельвіра Валеріївна, к.ф.н., м.н.с. ХакНДІЯЛІ
  • Мальцева Віра Сергіївна та інші учасники хакаської експедиції РДГУ 2001, 2002, 2007 років.
  • Крилов Філіп Сергійович, програміст Центру компаративістики Інституту східних культур та античності РДГУ.

На території України поширеновелика кількість (і, можна сказати, більша частина) тюркських мов. Частина цих мов має офіційний статус та літературну традицію, тобто цими мовами існує значна кількість текстів. За малими тюркськими мовами і діалектами накопичено значний текстовий матеріал — записи фольклору, польові записи дослідників (зокрема учасників даного проекту) та інших. Значна частина цих мов, тим паче їх діалектів, нині перебувають під загрозою зникнення. Існуючий обсяг матеріалів потребує комп'ютеризації та забезпечення загального доступу до нього, тобто створення відкритого корпусу тюркських мов України. Відкритість корпусу має забезпечити як подальше вивчення цих мов, а й зробити внесок у справу їх збереження та розвитку.

У рамках проекту передбачається робити паралельні корпуси (всі тексти забезпечені українським перекладом) з морфологічною (надалі синтаксичною) розміткою.

Матеріалом для корпусу хакаської мови є насамперед паралельні (хакасько-українські) літературні тексти художнього жанру та епічні тексти, оцифровані та наведені до стандартного формату. У розпорядженні укладачів корпусу є оцифрована версія Великого хакасько-українського словника на 22 тис. слів за ред. О.В.Субраковой (Новосибірськ, 2006) та ілюстративний матеріал до нього.

[Докладніше див. розділ Тексти, матрицю металінгвістичних даних].

Окрім того, планується створення діалектного підкорпусу хакаської мови. На даний час у рамках проекту проводилася обробка польових матеріалів за хакасськими діалектами (сагайський та бельтирський). За сагайським діалектом (Казанівка) опрацьовано тексти, зібрані експедиціями РДГУ (2001, 2002 рр.), РДГУ та ИЯз РАН (2007 р.), бл. 12:00звучання (розшифрування, переклад, частково відглосовані); з бельтирського діалекту частково опрацьовано тексти, зібрані експедицією ІЯз РАН (2011 р.), 6 годин звучання (розшифрування, переклад). Звукові файли та розшифровка текстів, розмічена за часом, вивішена в Інтернеті; надалі передбачається завершення глосування та розміщення його також в Інтернет. Автори проекту сподіваються на сприяння хакасських діалектологів у справі розширення діалектного підкорпусу, зокрема на матеріал інших діалектів. Крім текстів, у діалектному підкорпусі вивішуються різні анкети-опитувальники, звукові файли у супроводі розшифровки (100-словники, 200-словники, складені на історичному принципі великі фонетичні опитувальники, морфологічні та синтаксичні опитувальники).

1 Див. А.В.Дибо, О.А.Мудрак, Про історичний принцип при складанні фонетичної анкети для польового обстеження діалекту // ІІІ Міжнародна конференція з польової лінгвістики. Тези та матеріали. М., 2009.