Засоби комп’ютерного представлення лінгвістичної інформації

Вибір формалізму уявлення лінгвістичних знань визначається трьома взаємно-суперечливими критеріями: лінгвістична природність, формальна потужність і обчислювальна ефективність. Під лінгвістичної природністю розуміється, з одного боку, зручність відображення феноменів ЕЯ, з другого боку — типологічна адекватність, тобто. можливість досить загальним чином описувати феномени, що належать до багатьох (або всіх) природних мов. З погляду лінгвістичної природності, обрані засоби уявлення повинні також описувати весь ЕЯ і лише ЕЯ, тобто. теорія повинна виключати всі інші можливі способи організації символів (критерії overgeneration і undergenera tion).

Основи опису рівнів формальної потужності формалізмів закладено класифікацією формальних мов та граматик, запропонованої Хомським. Ця класифікація належить до рівня граматичних формалізмів малюнка 1 . Для комп'ютерної лінгвістики серед них найбільш важливими є граматики кінцевих автоматів, контекстно-вільні (КС) та контекстно-залежні (КЗ) граматики. Одним із найбільш повних сучасних введень у використання математичних моделей для опису ЕЯ-феноменів є [Partee et al, 90]. Для опису ЕЯ-феноменів переважно застосовуються КС-граматики з деякими розширеннями. Досвід застосування довільних КЗ-граматик для моделювання лінгвістичних феноменів описаний у [Simmons & Yu 92]. Огляд аргументів за і проти повного опису ЕЯ за допомогою КС-граматик наведено в [Sampson 83]. Оцінка математичної складності різних лінгвістичних теорій дана [Barton et al, 87]. Опис природних мов як формальних математичних моделей був популярним напрямом досліджень у 60-70-ті роки, ця тема обговорюється, зокрема,збірнику [Маслов 75]. Одна з порівняно недавніх спроб побудови теорії ЄЯ на основі мови метаматематики наведена у [Лекомців 83].

Практично всі лінгвістичні теорії описують спосіб уявлення лінійної послідовності елементів пропозиції через ієрархічну структуру його граматичних компонентів. За цією ознакою граматики належать до однієї з двох груп: безпосередніх складових та дерев залежностей. Перший метод передбачає освіту складових лінгвістичних конструкцій з набору більш простих лінійно непересічних відрізків, які називаються безпосередніми складовими (immediate constituents) цієї конструкції. Другий метод передбачає побудову дерева із бінарних відносин безпосереднього підпорядкування залежного слова (modifier) головному (head). Розбір фрази у термінах обох уявлень дано малюнку 2 . Зазвичай у дереві безпосередніх складових (НС) S означає пропозицію, NP - іменну групу, VP - дієслівну групу, PP - прийменникову групу. У граматиці залежностей стандартного способу позначення синтаксичних відносин відсутня.

Відмінності між цими способами успадковані від принципово різних підходів до опису мови, що сягають Теньєра (ДЗ, [Tesni e re 49]) і Блумфілда (НС, [Блумфілд 68]). Тому методи відрізняються як формальними ознаками, а й увагою до таких аспектів мови, як членування мовних висловів, управління, область дії предикатів та його аргументів тощо. Подання у термінах безпосередніх складових використовується найчастіше для мов із фіксованим порядком слів (наприклад, в англійській), подання у термінах дерев залежностей — для мов із вільним порядком слів (як українською). Опис формального апарату, що застосовуєтьсядля цілей представлення граматик залежностей, можна знайти в [Гладкий 85], порівняння можливостей двох формалізмів та бібліографія з цього питання представлені в [Абрамов 85], цікаве обговорення цього питання міститься в [Rambow & Joshi 92]. Граматики залежностей не дають можливості зручного уявлення словосполучень як одиниць аналізу, а також з'єднання тих структур, які за своєю природою не залежать один від одного, наприклад, проектів. Феноменом англійської граматики, що демонструє незручність простого апарату безпосередніх складових, є можливість пересування післядієслівних частинок:

[Гладкий 85] пропонується опис синтаксису за допомогою синтаксичних груп, що виділяють складові словосполучень як одиниці побудови дерева залежностей. Це уявлення поєднує переваги безпосередніх складових та залежностей. Ще один спосіб об'єднання цих уявлень дають X-штрих уявлення, описані нижче. Зображуються граматичні структури найчастіше у вигляді дерев, у сучасних формалізмах часто часто використовується більш загальна структура даних — спрямовані ациклічні графи.

Граматика кінцевих автоматів (Fin ite-State Transition Network) формально відповідає простий за можливостями граматики третього типу. Кінцевий автомат містить набір станів (нетермінальних символів), серед яких виділяють одне або кілька початкових і кінцевих умов переходу між станами. Інформацією для переходу за умовами є символи, що надходять зі стрічки, яку читає автомат. Іноді кінцевий автомат може писати символи на іншу стрічку, в англомовній традиції такий автомат називають transducer. Часто для лінгвістичних програм умови переходу не задаютьсябезпосередньо, а обчислюютьсясловниковимкомпонентом, що ставить у відповідність символам або ланцюжкам символів стрічки-символи їх узагальнених класів. На малюнку 3 зображено кінцевий автомат, що описує морфологію форм дієслова мовою суахілі, в якому дієслівна форма містить морфологічні ознаки часу та осіб підлягає і прямого доповнення, що завершуються дієслівною основою, наприклад, дієслівна форма unamsumbua означає "ти його дратуєш".

Від S1 to S2 by SUBJ

Від S2 to S3 by TENSE

Від S3 to S4 by OBJ

Від S4 to S5 by VERBSTEM

SUBJ: ni, u, a, tu, wa.

TENSE: ta, na, me, li.

OBJ: ni, ku, m, tu, wa.

VERBSTEM: penda, piga, sumbua, lipa.

Кінцеві автомати є декларативним засобом подання, що означає можливість їх оборотності, тобто. застосування й у аналізу, й у синтезу. Вони також дуже ефективні з точки зору швидкості роботи, але обмежені в можливості опису багатьох структур, що зустрічаються в ЕЯ, таких як вкладені конструкції, наприклад, з придаткових пропозицій, що вкладаються одна в одну. Більш високий рівень граматик становлять контекстно-вільні (КС-) граматики, які описуються у вигляді продукцій (правил), які відповідають нетермінальним символам у своїх лівих частинах (до знака ® ) набір термінальних і нетермінальних символів у правих частинах. Приклад КС-правил для простої граматики української мови наведено на малюнку 4 . КС-правила у першій колонці описують структуру нетермінальних символів, на другий — словник, тобто. відповідність між нетермінальними та термінальними символами.

Подібна граматика описує такі пропозиції, як Іван бачить Петра; Молодий Іван бачить старого Петра; Молодий Іван бачить старого Петра, що йде; Іван йде іі т.д. Досить просто розширити цю граматику, щоб подати у словнику українську морфологію у повнішому вигляді. Зауважимо, що у цій граматиці вибір конкретного правила для побудови дієслівних груп (VP-правила) або іменних груп (NP-правила) заданий варіантами, гарантований вибір між якими зробити в рамках цього правила неможливо. Подібна граматика відноситься до так званих недетермінованих граматик.

Синтаксис КС-правил дуже простий, проте для опису багатьох феноменів ЕЯ простого апарату КС-граматики виявляється недостатньо. Зокрема, контекстно-вільними правилами незручно описувати узгодження (наприклад, в особі та числі між підлеглим та присудком). КС-апарат незручний для відображення розірваних залежностей (long-distance dependencies), викликаних пересуванням слів за фразою, або для опису відсутності складових (deletion). Наприклад, англійські пропозиції із запитальним словом на wh-:

Which eggplant did you tell him to cook?

Which baby did the girl kiss?

містять перехідні дієсловоcookіkiss,пряме доповнення до яких перенесено на початок речення. Класичним феноменом відсутності складових є еліпсис у творчих конструкціях:

John will leave the party, але Bill won't.

У традиції трансформаційних граматик для представлення таких феноменів запроваджуються трансформації, що переводять синтаксичну структуру таких фраз на стандартну. Одним із способів відображення змін синтаксичної структури без використання трансформацій є Node raising. У такій методології те місце, яке має бути зайняте деякою іменною групою у стандартній синтаксичній структурі дерева складових,позначається порожнім вузлом та доповнюється ознакою slash (NP/). Такий вузол розташовується, як правило, праворуч від реальної позиції відповідної складової і більш глибокої складової дерева (наприклад, Wh-група залежить від кореня дерева, а NP/ - від дієслівної групи). У такому описі Wh-група ніби піднімається щодо своєї стандартної позиції (звідси поняття raising).