Тезаурус vs

Однією з перших проблем (після вибору та звуження тематики), з якою я зіткнувся під час підготовки лекції, став традиційний роздум про назву. Каменем спотикання виступило поняття "когнітивного тезаурусу", для якого відразу не вдалося визначити адекватного перекладу. При цьому спочатку постало питання про те, що таке когнітивний тезаурус, але трохи пізніше виникли складнощі з перекладом слова «тезаурус» у загальному розумінні.

За весь час мого захоплення комп'ютерною лінгвістикою я кілька разів намагався чітко визначити це поняття на основі наявної літератури, проте щоразу я натрапляв на «каламутне поле», яке лише розросталося з появою нових публікацій, стандартів, технологій тощо. Власне, поняття «тезаурус» стало якимось модним слівцем (у сенсі цього терміну), тобто. що постійно змінюється і сильно залежить від контексту (середовища вчених, галузі застосування і т.д.).

Мабуть, найпершим, прийнятим мною трактуванням цього слова стало щось на кшталт «універсальний словник, що має багато входів». Таке розуміння сформувалося у мене під впливом книги Ю.Н.Караулова «Лінгвістичне конструювання», де представлена дуже цікава типологія словників та принципи їхньої побудови. На жаль, зараз під рукою немає цієї книги, але треба буде ще раз уважно переглянути відповідні визначення. Таким чином, для мене першим значенням поняття тезаурусу стало лінгвістичне та дуже абстрактне формулювання, яке дозволяє під тезаурусом розуміти майже будь-яку лексикографічну конструкцію ))

Не вдаючись у подробиці захоплюючого процесу розвитку семантики цього слова в моїй свідомості протягом ряду років, хочу відзначити тільки те, що багатогранність тезауруса фіксувалася у мене тільки понеобхідності, коли потрібно було пояснити або зіставити відблиски «скарбів» з «тінями та відображеннями» інших «мешканців» лінгвістичного світу, області ІІ та провінції semantic Web.

У книзі тезау

руси розглядаються як типи онтологій із посиланням на класифікацію, представлену в роботах Lassila O, McGuiness D.

Цікавою особливістю даної класифікації є те, що тезауруси у схемі нижчі за рівнем формалізованості, ніж таксономії, які на відміну від «груди скарбів» завжди мають струнку багаторівневу ієрархічну організацію. Побіжний пошук не дозволив мені підтвердити першоджерело, але в дрімучому лісі схем і картинок мені вдалося за відповідними ключовими словами знайти схожу, але все-таки схему, що відрізняється. У ній тезаурус стоїть вище за своєю інтероперабельністю, виразністю і судячи з усього формалізованості.

«Головною характеристикою лінгвістичних онтологій є те, що вони пов'язані зі значеннями (“are bound to the semantics”) мовних виразів (слів, іменних груп тощо). Лінгвістичні онтології охоплюють більшість слів мови, і водночас мають онтологічну структуру, що виявляється у відносинах між поняттями. Лінгвістичні онтології можуть розглядатися як особливий вид лексичної бази даних і особливий тип онтології. Лінгвістичні онтології від формальних онтології за рівнем формалізації. Тому передбачається, що розробники такого роду ресурсів розробляють ієрархію лексичних значень природної мови, а суворішого описи знання світі необхідно зіставити такі ресурси з будь-якими формальними онтологіями.

Учасники іншого проекту OntoWordNet вважають, що недостатньо провести формальну склеювання ресурсу типу WordNet та формальної онтології, необхіднаЗначна реструктуризація вихідного лексичного ресурсу.

Третій шлях – спробувати розробити єдиний ресурс, у якому було б збалансовані обидві частини: система понять – і система лексичних значень, що полягає у розумному поділі цих одиниць у створюваному ресурсі та акуратному описі їх взаємозв'язків. Спроба такого підходу реалізується в онтологіях MikroKosmos та OntoSem».

3. Варто також переглянути статтю Олександра Наріньяні. Кентавр на ім'я ТЕОН: Тезаурус + Онтологія

4. Серед зарубіжних публікацій попалися такі:

Metadata? Thesauri? Taxonomies? Topic Maps! (Lars Marius Garshol). У статті тезауруси ставляться вище, ніж таксономії, але нижче ніж онтології, свідомо обмежуючи їх трактування стандартами ISO (на нашу думку, СІБІД 7.25-2001). Вони тезауруси наділені лише відносинами синонімії (USE/UF), род-вид (BT/NT) і асоціації (RT). Апогеєм розвитку лексикографії. структур для інформаційного пошуку представляються Тематичні карти (Topic maps), на кіт. також є стандарти (ISO/IEC 13250:2003) та засоби опису.
http://www.spicynodes.org/reference-semantic.html. На цьому ж ресурсі коротко пояснюється, що тематичні карти є різновидом семантичних мереж. Тут є соотв. програми

5. Додатково за термінологією можна скористатися ресурсом робочої групи симпозіуму «Онтологічне моделювання», якою намагається ув'язати інші суміжні поняття.

6. І ще з ресурсів варто переглянути добірку посилань одного з моїх студентів, який виконав диплом на тему «Інформаційні технології семантичної розмітки веб-сторінок».

Дуже цікавий пост!

1) Творці суспільно-політичного тезаурусу української мови(http://uisrussia.msu.ru/docs/ips/n/techno/index.htm) дають йому наступне визначення:

Тезаурус - це термінологічний ресурс, реалізований у вигляді словника понять та термінів зі зв'язками між ними. Основне призначення тезаурусу – допомога при інформаційному пошуку: на основі зв'язків тезаурусу відбувається розширення запиту, навігація зв'язків тезаурусу допомагає чіткіше сформулювати сам запит.

2) “Водночас на практиці онтологію часто прирівнюють до існуючих та широко поширених моделей уявлення знання (семантичним мережам, фреймам, продукціям, логіці предикатів та ін.). “

Мені здається, що основний аргумент за еквівалентність онтологій та інших моделей уявлення знань (фреймів, семантичних мереж, концептуальних графів та деяких інших моделей) полягає в тому, що всі ці моделі можна представити в термінах логіки предикатів першого порядку (first-order logic). Відповідно вони всі мають один рівень виразності, як символьну мову уявлення знань. Наприклад? Люгер у своїй книзі „Штучний інтелект: методи вирішення складних проблем“ навіть наводить алгоритм конвертування концептуального графа на мову предикатів.

3) „Рекомендую всім почитати навчальний посібник В.Д. Соловйов, Б.В. Добров, В.В. Іванов, Н.В. Лукашевич «Онтології та тезауруси», 2006 р. „ Так, відмінний посібник. Воно є з 2008 року як курс на Інтуїті http://www.intuit.ru/department/expert/ontoth/

4) „Metadata? Thesauri? Taxonomies? Topic Maps! (Lars Marius Garshol) У статті тезаурус ставляться вище, ніж таксономії, але нижче ніж онтології, „

Незалежно від вас учора також натрапив саме на цю статтю. Загалом згоден із упорядкуванням таксономії Пилипович Андрій Юрійович

1. Тут вибрано підхід, що використовується встандарти на інф.-пошук. тезауруси. Адже ти теж орієнтуєшся саме на це розуміння у своїй роботі. Однак це вузьке розуміння, а іншого, ширшого поняття, в лінгвістиці немає (або, точніше, не вживається широко). 2. Перелічені моделі які завжди можна уявити з допомогою логіки предикатів, особливо першого порядку. 3. Я це посилання теж навів) 4. див. п.1. А таксономія це зовсім вироджена онтологія (т.к. у ній лише одне тип відносин). Я думаю, що в широкому розумінні різниця між тезаурусом і онтологією проходить там же, де лінія розділу між комп'ютерною лінгвістикою (ЕЯ-процесором) і ІІ (повнофункціональним ітел. агентом). 5. Загалом вважаю і тез., І онт. поняттями з широкою та розмитою семантикою, що набувають конкретики лише при додаткових припущеннях (наприклад, при використанні стандартів).

1. Так, я навів цитату, щоб дати більш конкретне визначення одного з видів тезаурусів. Звичайно, це визначення годиться тільки для ресурсів, що використовуються для задач автоматичної обробки текстів та інформаційного пошуку.

2. Які точно на вашу думку можна, а які не можна? Наприклад, який елемент класичної семантичної мережі не можна уявити мовою предикатів першого порядку?

3. Так, перепрошую. Пропустив це посилання.

4. Можна розглядати таксономію як вироджену онтологію. З іншого боку Cimiano у книзі «Ontology population and learning from text» (http://books.google.com/books?hl=en&lr=&id=CRbCXdGZgC4C&oi=fnd&pg=PR14&dq=ontology +learning+and+population&ots=PauA6qTFTw&sig=rkbDEnflfiROqI38thsVB-0Gd3I#v=onepage&q&f=false ) називає таксономією ієрархію класів в онтології. Таким чином, таксономія з його точки зоруосновою онтології. Ієрархія типів у концептуальних графах також може бути інтерпретована як таксономія.

"Я думаю, що в широкому розумінні різниця між тезаурусом і онтологією проходить там же, де і лінія поділу між комп'ютерною лінгвістикою (ЕЯ-процесором) та ІІ (повнофункціональним ітел. агентом)." Так, думаю що це судження найближче до істини. Проте ситуацію ускладнює існування т.зв. лексичних онтологій таких як OntoWordNet та http://www.w3.org/TR/wordnet-rdf/.

На мій погляд важливо розділяти мови уявлення онтологій, такі як OWL та RDF, і ті знання (дані), які представлені за допомогою цих мов. Для мене онтологія – це формальна символьна модель представлення знань. Її можна використовувати як для опису відносин між природно-мовними одиницями, так і для опису будь-якої іншої галузі знань. Тезаурусний опис, це теж модель уявлення знань, тільки простіша. Відносини у тезаурусі за визначенням лексичні та семантичні, тобто. прив'язані до природної мови. Саме тому тезаурус використовується лише уявлення лексичного аспекту знання предметної області, на відміну онтології, яка може використовувати будь-який тип відносин між класами.

„Загалом вважаю і тез., і онт. поняттями з широкою та розмитою семантикою, що набувають конкретики лише при додаткових припущеннях (наприклад, при використанні стандартів). „

Згоден. Наприклад, якщо ми використовуємо Semantic Web стандарт SKOS для опису тезаурусу або таксономії (http://www.w3.org/TR/2009/NOTE-skos-primer-20090818/), то відразу стає видно у чому ця модель представлення знань відрізняється від повнофункціональної онтології OWL Full (http://www.w3.org/TR/owl-ref/).

Ось так розробники SKOSпояснюють різницю між ним та OWL (приблизно співвідноситься різниці між тезаурусом та формальною онтологією):

Про сценарну модель я нечіткі стосунки згоден, проте я скоріше мав на увазі моделі уявлення знань, засновані на графах. Фреймова модель думаю може бути описана в мові предикатів. Єдине, що може бути скрутним, це обмеження на значення, напевно. Я повністю згоден, що елегантність уявлення мовою предикатів низька, але спочатку я говорив про конвертування в мову предикатів з метою довести еквівалентність виразності різних моделей уявлення знань.

Основна частина цієї статті присвячена опису експериментів із пацюками. На закінчення я спробую також кількома словами визначити значення даних, отриманих на щурах, для розуміння поведінки людини.