Термін електронний словник

1. /Електронні словники та комп'ютерна лексикографі1.docТермін "електронний словник"
Електронні словники та комп'ютерна лексикографія

Термін "електронний словник" став звичним. При цьому атрибут "електронний" характеризує свій об'єкт настільки ж поверхово, як протилежний йому атрибут "паперовий" - традиційні словники. Зазвичай мається на увазі, що словник на комп'ютері - це введений у нього паперовий словник, з зручними засобами пошуку та відображення. Тобто, творці електронних словників переливають старе добре лексикографічне вино у нові електронні хутра.

Комп'ютерна лексикографія як область прикладної лінгвістики, яка виробляє такі словники, виявляється позбавленою власного мовного предмета. На її частку залишається лише ефектна демонстрація канонічного змісту.

Ми хотіли б запропонувати іншу точку зору, згідно з якою комп'ютерна лексикографія є особливим напрямом у практичній лексикографії зі своїми власними підходами не лише до відображення, а й до змісту словника. Ми вважаємо, що електронний словник - це особливий лексикографічний об'єкт, у якому можуть бути реалізовані та введені в обіг багато продуктивних ідей, не затребувані з різних причин у паперових словниках.

Необхідно відразу обмовитися, що йдеться про тенденції, потенційні можливості комп'ютерної лексикографії, частина яких ще не реалізована або навіть ще не усвідомлена.

Перш ніж перейти до обговорення нових можливостей, зупинимося на проблемах класичної "паперової" лексикографії.

Антиномії паперової лексикографії

Плоди традиційної практичноїлексикографії страждають від трьох фундаментальних протиріч, характерних для цієї галузі людської діяльності:

1.Чим більше обсяг словника, чим повніше і доказовіший опис лексичних значень, тим складніше ним користуватися.

Ця суперечність призвела до поляризації ринку паперових словників: є велика група масових видань, досить примітивних, але щодо зручних, якій протистоять одиничні пудові фахові видання, непридатні для швидкого отримання інформації. Характерний приклад – 20-томний Оксфордський словник.

2. Чим повніше та глибше опис лексичних значень, тим меншою мірою словник відповідає поточній мовній та культурній ситуації.

Надзвичайно довгий цикл створення та модифікації фундаментальних паперових словників призводить до того, що образ світу, який вони фіксують у системі своїх значень, прикладів та перекладів, вже помітно відрізняється від дійсності. Багато словників, основний корпус статей яких сформувався в мовній атмосфері середини століття, є лексикографічні музеї (а то й термінологічні цвинтарі, якщо говорити про спеціалізовані словники).

3.Чим цікавіше власне лексикографічна концепція словника, чим інтегральніші засоби опису лексичних значень, тим його лексична база.

В результаті універсальні паперові словники демонструють сумну відсутність впливу досягнень теоретичної лексикографії на лексикографічну практику. Наукові лексикографічні проекти існують, але реалізуються як словників, не покривають і 10% всього лексикографічного простору. Наприклад, у знаменитому Товково-комбінаторному Словнику (ТКС) під ред. Мельчука та Жовковського [1] описано всього близько 400 лексичнихзначень української мови

Можливості комп'ютерної лексикографії

Комп'ютерна реалізація паперового словника як така дозволяє подолати частину зазначених проблем. До нових можливостей електронного словника належать:

1. Суттєво витонченіші можливості показу змісту словникової статті, включаючи можливість часткового показу за різними критеріями (різні "проекції" словника), різноманітні графічні засоби, які не використовуються у звичайних словниках.

2. Використання для доступу до змісту різних лінгвістичних технологій, таких як морфологічний та синтаксичний аналіз, повнотекстовий пошук, розпізнавання та синтез звуку тощо.

З погляду користувача сенс реалізації в електронному словнику всіх цих технологій полягає в тому, що стає можливим швидко отримати інформацію, яка міститься десь у надрах словника і безпосередньо відповідає запиту, який сформульований користувачем у зручній для нього формі.

При традиційному підході мінімальною одиницею доступу є лексема (ім'я словникової статті): ми маємо прочитати всю статтю, щоб визначити, чи міститься у ній відповідь наш запит. Для таких словників, як оксфордський, це є серйозною проблемою. Наприклад, дієслово set має там 400 лише основних значень (і в багатьох з них є призначення).

Користувач хотів би щоб словник максимально локалізував релевантну інформацію. При цьому не йдеться про автоматичний вибір перекладного еквівалента (якщо ми говоримо про перекладний словник). Специфіка словникової відповіді в тому, що він дає дуже різноманітну інформацію про слово чи словосполучення, а не просто перекладну відповідність, передбачає активний вибір користувача з кількохможливих добре обґрунтованих альтернатив.

Проте, спроба вирішити проблему адекватної реакції словника на запит неминуче наштовхується на опір самого словникового матеріалу, перенесеного з паперового словника.

Джерело цього протиріччя теж зрозуміле: словник є модель мови, влаштовану на зовсім інших принципах, ніж ті формальні моделі, які лежать в основі цих технологій. І якщо в галузі морфології протиріччя ще не дуже суттєве, то в галузі синтаксису та семантики воно стає майже непереборним.

Дійсно, технологія морфологічного аналізу лише дозволяє встановити відповідність між вихідною формою слова з тексту і безліччю лексем (словникових входів), для якої така форма можлива. Синтаксичний аналіз дозволяє зробити те саме для словосполучень, що є окремими словниковими входами.

Перший і очевидний крок, який вже йдуть творці електронних словників, це первинна розмітка словникової статті, формалізація тієї внутрішньої структури, яка у тому мірою є у хороших паперових словниках.

Проте всі ці заходи є поверхневими. Зрозуміло, завдання полягає в тому, щоб одиницею опису було окреме лексичне значення, і технології аналізу могли б встановлювати відповідність між вихідним запитом і тими лексичними значеннями, які релевантні для цього запиту за синтаксичними та семантичними критеріями.

Як приклад, що ілюструє, можна навести практично будь-яке дієслово, що належить ядру мови. Наприклад, дієслово "розвести" може зустрітися у таких контекстах:

розводити спирт водою;

(англійські еквіваленти: bring; conduct; part, separate; mix; dissolve; divorce; breed; plant, etc.)

Завдання створення такого словникового змісту, що дозволило б зробити одиницею аналізу окреме лексичне значення, а чи не морфологічну лексему, бачиться найперспективнішим напрямом у комп'ютерної лексикографії. Зрозуміло, що для її вирішення потрібна "синхронізація" словникових описів та формальних моделей, що використовуються технологіями аналізу. У межі це має бути єдиний інтегральний лексико-синтактико-семантичний опис.

Читачі та письменники

Інтегральний підхід до лексичних описів дозволяє вирішити і проблему "монофункціональності" паперових словників.

Наприклад, особливістю більшості паперових перекладних словників є орієнтація опису структури лексичного значення у вихідній мові на лексичну систему мови перекладу та на реалізацію рівно однієї функції - власне перекладу з мови А на мову Б у припущенні, що мова А є іноземною, а мова Б - рідним. Нема чого й казати, що таке обмеження робить словник виключно незручним при необхідності переходу від моделі користувача Читач до моделі Письменник.

Фактично сьогодні такі моделі реалізуються різними типами словників, що досить незручно для читача. Тому інтегральний підхід до лексичних описів виправданий як методично (і, що важливо, економічно), а й з погляду врахування інтересів користувача.

Торкнемося проблеми актуальності словникового змісту.

Як зазначалося, фундаментальні (кращі!) паперові словники - неминуче застарілі словники.

Особливо це притаманно розмовної лексики, зокрема, ненормативної. У цій галузі вітчизняні класичні словники постають не лише застарілими, а й просто ханжеськими.

Функції фіксації поточного стану мовиберуть він рости, як гриби після дощу, невеликі словнички, зазвичай дуже коньюнктурні і поверхневі. Нові значення в них відірвані від свого мовного коріння, погано чи довільно пояснені.

Для масових програмних продуктів, якими є електронні словники, характерна часта зміна версій та наявність постійного зворотного зв'язку з тисячами користувачами. Тому комп'ютерна лексикографія – це неминуче актуальна лексикографія.

Життя електронного словника має бути схожим на нелегке життя інших програмних систем: з маніакальним прагненням особливо шкідливих користувачів виявити чергову помилку або лакуну, і, з іншого боку, з можливістю та необхідністю виправити справу зараз, а не через десятиліття.

Відповідність рівню досягнень лінгвістичної науки

Відрив лексикографічної теорії від лексикографічної практики великий. Це має бути особливо прикро для української лінгвістичної науки, де лексична семантика посідає особливе місце. Достатньо назвати такі імена, як Мельчук, Апресян, Падучова та багато інших.

Зрозуміло, існують особливі "концептуальні" словники, у яких лексика представлена ​​інтегрально та систематично. Наприклад, вже згадуваний ТКС, створений у рамках теорії Сенс-Текст Мельчука, або тлумачні та синонімічні словники групи Апресяна.

При цьому в масових паперових словниках жодних слідів цих ідей ви не виявите. І саме у розвитку цих ідей ми бачимо майбутнє практичної комп'ютерної лексикографії.

У цій статті ми не можемо детально аналізувати теоретичні концепції, які одночасно є і практично корисними. Вкажемо лише наступні:

• Поняття "лексичної функції", що дозволяє систематично описувати невільне поєднанняслів. Наприклад, те, що "війну ведуть", а "іспит - тримають", що "теорії висувають", а "думки подають" тощо.

• Опис семантики та практичної реалізації граматичної словозміни та словотвору. Кожна мова має власні методи граматичного кодування сенсу. І ці методи ніколи не описується в масових словниках систематично. Наприклад, як передати по-англійськи сенс "випендрюватися", навіть якщо знаєш як передати "випендрюватися"?

• Синтаксичні описи. Тут ситуація найсумніша, оскільки у масових словниках немає навіть системи понять, з допомогою якої синтаксична інформація може бути доведено до звичайного читача. Ідея, що за складання речення відповідальна граматика, викладена у довіднику, а словник забезпечує переклад окремих слів, не витримує критики з погляду сучасних уявлень про центральну роль слова у синтаксисі.

Вихід із цієї сумної ситуації вже вказано. Майбутнє лексикографії за інтегральними словниковими описами, що ґрунтуються на формальних моделях, що враховують згадані наукові результати. На цих же моделях будуть ґрунтуватися технології доступу до словникового змісту.

Оскільки кількість слів в англійській мові продовжує збільшуватися, словники стають все товстішими, а видавничі витрати стрімко зростають - лексикографи всього світу запропонували революційне вирішення цієї проблеми.

На черговій зустрічі Асоціації Творчих Лексикографів її члени одноголосно проголосували за 15-відсоткове скорочення всіх словників. Скорочення буде здійснено пропорційно всім літер і всіх рівнях словника. Таким чином, до 2002 року кожен словник, що знову виходить, від шкільних до академічних, буде урізаний на 15%

ПрезидентАсоціації Харлі Лайклі визначив це рішення як "екологічно коректне", вказавши, що менші за обсягом словники зберігають ліси. Справа за малим: визначити, що саме слід викинути.