Розподіл лінгвістичних одиниць у текстах (на матеріалі грузинських та англійських

ЛЕНІНГРАДСЬКИМ ОРДЕНОМ ТРУДОВОГО ¡ЧЕРВОНОГО ЗНАМУ ДЕРЖАВНИЙ УНІВЕРСИТЕТ
На правах рукопису УДК с01.3: Ь19. 1+з чи-че-не-ство ня
[іменник 12 12 2Ь 73 65 3 65 61 144
Дієслова 20 1В 22 46 43 12 43 I 52
Прислівники 10 7 10 14 14 7 14 - 14
Прикметники 13 1 21 42 42 8 42 2 45
Частинки 3 2 3 3 3 2 3 - 3
Артиклі 3 3 2 2 2 2 2 - 3
Союзи Ь 8 1: 9 9 8 9 - 9
Чисельні 3 3 3 3 3 3 3 - 3
'"єсто маєтку 6 6 7 Ь В 5 Ь 2 10
Дредлоги 17 14 17 Д 14. 18 - 1Ь
мови грузинських науково-технічних текстів можна помітити майже повну ідентичність у характері; підпорядкування їх ЕР теоретичним законам.
3 п'ятому розділі розглядається можливість прикладного використання побудованого нами математичного апарату. Справді, якщо уявити вибрані п'ять ТЗР у вигляді деякого фільтра, на вхід якого надходять с/д, можна судити про тог. яка частина промови вийде на виході. Кслі на виході ми отримуємо с/ф, які не підкоряються одночасно всі "уР - то це в основному іменники. Прикметники в основному повністю підпорядковуються одночасно пуассонівському та біноміальному закону. розподілу. ведуть себе інакше.Для них характерно те, що одночасне непокору всім ТЗР виявити не вдається.При подальшому аналізі з'ясовується, що службові слова, прислівники р. чисельні можна легко відокремити від дієслів за те:.7 ознакою, що вони в основному підкоряються
виттям п'яти ТЗР одночасно. Дієслова ж переважно добре підпорядковуються у чисельному відношенні одночасно пуасонівському і біноміальному законам розподілів. Лише для займенників не вдається виявити жодної явної перевагифункціонування ТЗР. Їх ЕР добре описуються кожним із п'яти ТЗР.
Імовірнісний підхід до виявлення ЕЗР з/в у текстах дає хороші результати і виділення термінологічних слів у текстах. Тому наша модель може виконувати роль термінологічного фільтра. На вхід цього "фільтра" надходять з/в грузинських та англійських науково-технічних текстів. На виході отримуємо с/в, які підпорядковуються одночасно всім розглянутим ТЗР. Ці с/в є термінологічними одиницями.
Для грузинських науково-технічних текстів з фізики було виявлено за допомогою цієї методики 70 термінів із розглянутих 400 с/ф. Серед них - 56 іменників та 14 - прикметників. Для англійських науково-технічних текстів з радіоелектроніки, переробки нафти і газу, цивільної авіації з 300 розглянутих с/ф було виявлено 58 термінів.
В результаті дослідження встановлено, що майже всі з/в, ЕР яких не співпали із законом розподілу Чебанова-Фук-са, також були термінологічними. Для грузинської мови у досліджуваному масиві виявлено 120 таких термінів, для англійської – 90.
З кількісної погляду розбіжність ЕР із законом розподілу Чебанова-Фукса дає кращу селекцію термінів проти методикою К.Б.Бектаева і К.Ф.Лукьяненкова.
У висновку дисертації підбито підсумки дослідження.
Імовірно-статистичне моделювання є дієвим методом дослідження процесів текстоутворення, при цьому особливу важливість має моделювання за допомогою розподілів. Встановлено, що немає деякого універсального ТЗР, що повністю описує характер розподілів з/в у текстах. Недоцільно застосовувати безперервні ЕР для опису ЕР з/в текстах.
Порівняння отриманих результатів для грузинських та англійськихнауково-технічних текстів показує майже повне
їх збіг. Це дає можливість порівняння текстів різних мов за рівнем їхньої приналежності до різних жанрів (науково-технічного чи художнього).
Уявивши собі п'ять ТЗР у вигляді деякого фільтра, на вхід якого надходять. контрольні с/ф на вигляд розподілу конкретної с/ф можна з певною ймовірністю вказати належність даної с/ф до граматичного класу.
Ця математична модель може виконувати роль і лексикологічного фільтра відділення термінологічних одиниць від нетермінологічних.
1. Кокочашвілі Т.Г., Цілосані Т.П. Деякі узагальнені пуассонівські розподіли та їх застосування в лінгвістині.// Інженерна лінгвістика та оптимізація викладання іноземних мов у ВНЗ. Л.: ЛГШ, 1983. С.136-141.
2. Кокочашвілі Т.Г., Цілосані Т.П. Про застосування законів розподілів лінгвістичних одиниць в інженерно-лінгвістичному моделюванні.// Повідомлення АН СРСР, т.Пб, 1984, Я 3. С.501-505.
3. Кокочашвілі Т.Г. Ш симпозіум з лінгвістичних проблем штучного інтелекту (Хронікальні нотатки).// Радіотехніка, 1985, М 9. С.95-96.
4. Кокочашвілі Т.Г. Частотний опис текстів з прикладу англійського науково-технічного тексту з обчислювальної техніки.// Праці ТГУ, серія кіберн. й прикл. мат. Л 6. Тбілісі: ТГУ, 1985. С.169-174.
5. Кокочашвілі Т.Г., Чхенкелі А.І. Про виявлення емпіричних законів розподілів лексичних одиниць у текстах з допомогою ЕОМ.// Тр.ТГУ, серія кіберн. та прикл. мат., Я 6. Тбілісі: ТГУ, 1985. С.142-169.
6. Кокочашвілі Т.Г., Цілосані Т.П., Берішвілі Г.И. Дослідження законів розподілів лексичних одиниць у грузинському науково-технічному тексті з фізики.// Тр.ТГУ, серія кіберн. та прикл. глат., Л7. Тбілісі: ТГУ, 1986.С. 135-145.
7. Кокочашвілі Т.Г., Цілосані Т.П., Берішвілі Г.1!1. Про частотному словнику грузинської науково-технічної лексики.// Тр. ТГУ, серія кіберн. та прикл. мат., № 7. Тбілісі: ТТУ, 1986, С.145-157.
8. Кокочашвілі Т.Г., Цілосані Т.П., Берішвілі Г.П. Результати порівняння емпіричних законів розподілу частин мови в грузинських та англійських науково-технічних текстах із п'ятьма теоретичними законами розподілів. Тези доповіді.// Квантитативні аспекти системної організації тексту, Тбілісі: ТГУ, 1986. С.70-78.
9. Кокочашвілі Т.Г. Розподіл структурних одиниць мови. До проблеми лінгвістичної інтерпретації. Тези доповіді.// Прикладна лінгвістика та автоматичний аналіз тексту. Тарту: Тартуський МУ, 1988. С.44-46.
10. Кокочашвілі Т.Г., Цілосані Т.П. Про застосування закону розподілу Чебанова-Сукса у лінгвістичних дослідженнях. Тези доповіді.// Лінгвістичні проблеми штучного інтелекту. Ленінград, 1090. С.14.