НОУ ІНТУІТ, Лекція, Інформаційно-пошукові тезауруси
Одиниці традиційних інформаційно-пошукових тезаурусів
Більшість версій стандартів ІПТ вказують на зв'язок термінів з поняттями предметної області. За американським стандартом термін - це слово чи словосполучення, що означає поняття. Стандарт ISO підкреслює, що індексуючий термін - це уявлення поняття переважно у формі іменника або іменної групи.
У цьому поняття сприймається як одиниця думки, яка формується подумки відбиття всіх чи деяких властивостей конкретного чи абстрактного, реально існуючого чи уявного об'єкта. Поняття існують як абстрактні сутності незалежно від термінів, які їх виражають.
український ДЕРЖСТАНДАРТ розглядає поняття як форму мислення, що відображає суттєві властивості, зв'язки та відносини предметів та явищ, а терміном у визначенні ГОСТу є слово або словосполучення, що є точним позначенням певного поняття будь-якої галузі знання.
ГОСТ 7.74-96 визначає одиниці тезаурусу як лексичні одиниці інформаційно-пошукової мови - тобто позначення окремого поняття, прийняті в інформаційно-пошуковій мові та неподільні у цій функції.
Отже, розробники тезаурусів припускають, що поняття предметної області зазвичай має кілька можливих варіантів лексичного уявлення у тексті, що розглядаються як синоніми. Серед таких синонімів вибирається дескриптор - термін, який сприймається як основний спосіб посилання поняття у межах тезауруса. Інші терміни із синонімічного ряду, включені до тезаурусу, називаються аскрипторами або недескрипторами. Вони використовуються як допоміжні елементи, текстові входи, які допомагають знайти відповідні дескриптори.
Дескриптори
Дескриптори тезаурусу повинні відповідати обраній предметній області тезаурусу. Кожен дескриптор, внесений до тезаурусу, повинен представляти окреме поняття даної галузі. Дескриптор може бути однослівним чи багатослівним. Оскільки часто буває досить важко зрозуміти, чи представляє окреме поняття багатослівне словосполучення, багато тезаурусів та керівництва приділяють особливу увагу основним принципам включення до тезаурусу як дескрипторів багатослівних термінів.
Набір дескрипторів повинен відповідати таким вимогам:
Відносини в інформаційно-пошуковому тезаурусі
ГОСТ 7.25 вказує, що основними типами відносин, які зазвичай відображаються в ІПТ, є наступні:
- рід – вид;
- частина – ціле;
- причина – слідство;
- сировина – продукт;
- адміністративна ієрархія;
- процес – об'єкт;
- функціональна схожість;
- процес – суб'єкт;
- властивість – носій властивості;
- антонімія.
Такі змістовні типи зв'язків між дескрипторами найчастіше не відображаються у докладному переліку відносин тезаурусу, а записуються за допомогою невеликого набору відносин, які зазвичай поділяються на два типи: ієрархічні та асоціативні.
Ієрархічні відносини
За ДСТУ 7.25-2001 ієрархічні відносини мають властивості транзитивності та антисиметричності, які можуть бути використані при надмірному індексуванні на користь підвищення ефективності інформаційного пошуку. Переважно вказувати зв'язки між дескрипторами як відносини ієрархічного виду, якщо вони мають ці властивості. Ієрархічні відносини, що застосовуються в ІПТ, можуть диференціюватися на окремі види.
Основним ієрархічнимставленням, що використовується в ІПТ, є родо-видове відношення (воно ж - відношення НИЖЧЕ-Вище). За ДСТУ 7.25-2001 родовидовий зв'язок встановлюється між двома дескрипторами, якщо обсяг поняття нижчестоящого дескриптора входить до обсягу поняття вищестоящого дескриптора.
Також як ієрархічні відносини в ІПТ може встановлюватися відношення ЧАСТИНА-ЦІЛОЕ.
Багато інструкцій і стандартів підкреслюють, що ієрархічні відносини в ІПТ повинні встановлюватися в тих випадках, коли відносини істинні незалежно від контексту - тільки в таких випадках дескриптори ІПТ можуть бути організовані в ієрархії. Ця рекомендація пов'язана з тим, що зазвичай в інформаційному пошуку дуже важко чітко визначити контекст вживання терміну і зрозуміти, чи застосовується в даному контексті те чи інше ставлення.
Так, для мишей можна зазначити, що вони є гризунами, оскільки це внутрішня характеристика мишей. У той же час неправильно вказувати, що миші – шкідники, оскільки є лабораторні миші та домашні миші, які не є шкідниками.
Рекомендується використовувати тест "усі-деякі". Наприклад, "всі миші є гризунами, але деякі миші є шкідниками".
Асоціативні відносини
Основне призначення встановлення асоціативних відносин між дескрипторами ІПТ – вказівка на додаткові дескриптори, корисні при індексуванні чи пошуку.
Ставлення асоціації є неієрархічним та асоціативним. Асоціативне ставлення найважче визначити. український стандарт на створення ІПТ зазначає, що "асоціативне ставлення є об'єднанням відносин, які не входять до ієрархічних відносин або у відносини синонімії. Допускається включати в асоціативне відношення всі види відносин, крім синонімії та відносини РОД-ВИГЛЯД".
Інші джерела намагаються викласти докладніші принципи встановлення асоціативних відносин, оскільки інакше ставлення проставлятиметься непослідовно.
Американський стандарт описує найбільш загальне правило встановлення асоціативного відношення між дескрипторами таким чином: це відношення варто встановлювати між двома дескрипторами, якщо при вживанні одного терміну інший термін має на увазі. Один термін може бути необхідним елементом визначення іншого терміну, наприклад термін клітина становить необхідну частину визначення терміна цитологія.
Автоматичне індексування за традиційними інформаційно-пошуковими тезаурусами
Оскільки основними елементами ІПТ є терміни, описані як дескриптори та аскриптори, може здатися, що досить просто здійснити автоматичне індексування ІПТ шляхом простого зіставлення дескрипторів і аскрипторів з документами.
- важливі терміни документа можуть бути не знайдені в тезаурус, оскільки виражені в ньому трохи інакше;
- менш значимі терміни знайдуть пряме свій відбиток у тезаурусі і вийдуть першому плані тощо.
Тому досліджуються складніші методи автоматизації індексування з ІПТ.
Одним із підходів для автоматизації індексування за традиційними ІПТ є підхід, що ґрунтується на правилах. Такий підхід до автоматичного індексування було реалізовано за тезаурусом EUROVOC.
Правила можуть бути простими та складними. Прості правила не містять умов. Складні правила містять такі умови, як Близькість (на відстані трьох слів за текстом, в одному реченні, в тому ж самому полі, наприклад, у полі реферату), Місцезнаходження (в заголовку, в тексті реферату або документа, на початкуречення, наприкінці речення), Формат (з великої літери, все більшими літерами). Загалом було створено близько 40 тисяч правил.
Як інші підходи автоматизації індексування використовуються статистичні методи.
За таких підходів процес автоматичного приписування дескрипторів тезаурусу EUROVOC повнотекстовим документам включає дві стадії.
- На першій стадії (етап навчання) на основі документів, вручну проіндексованих індексаторами, встановлюється відповідність між словами, що зустрілися в тексті документа, та приписаними дескрипторами тезаурусу. Відповідність встановлюється з урахуванням статистичних заходів (chi-square чи log-likelihood). Вага відповідності окремого слова ключовому слову тим вища, чим вища спільна частотність використання даного слова та ключового слова щодо частотності у всій колекції.
Наприклад, дескриптору тезаурусу FISHERY MANAGEMENT відповідають такі слова (у порядку зменшення ваги): fishery, fish, stock, fishing, conservation, management, vessel тощо.
На другій стадії (власне індексування) кожного слова документа перевіряється, яким дескрипторам тезауруса воно відповідає. Якщо такі дескриптори є, то слово додає ваги дескриптора для даного тексту натуральний логарифм ваги, отриманого на першому етапі. Після обробки всіх слів поточного тексту виходить сумована вага дескрипторів тезаурусу.
Індексатори Європейського Парламенту надають документу зазвичай від 3 до 10 дескрипторів.
Видачу системи можна обмежити за кількістю дескрипторів, що видаються, або за вагою. Для тексту прикладу, присвоєні індексаторами, дескриптори знаходилися в першій тридцятці дескрипторів, присвоєних автоматично (на позиціях 3, 8, 9, 16 і 30).
При цьому більшість автоматично привласнених дескрипторів виглядають дуже релевантними тексту документа і тільки 3 з 40 присвоєних автоматично явно неправильні (наприклад, Кіпр).
Поєднання вільних запитів та запитів на основі інформаційно-пошукових тезаурусів
В даний час у світі існує досить багато інформаційних систем, що надають користувачам можливості пошуку інформації як за вільним запитом природною мовою, так і за допомогою дескрипторів інформаційно-пошукових тезаурусів, зіставлених документами професійними індексаторами.
Першим кроком на цьому шляху може бути знаходження кореляцій між словами документів та дескрипторами тезаурусу або рубриками рубрикатора.