Інформаційно-пошукові тезауруси
ТЕМА : ІНФОРМАЦІЙНО-ПОШУКОВІ ТЕЗАУРУСИ
1. Інформаційно-посковий тезаурус
Словники типу тезаурус чи ідеографічні вперше розроблені у лінгвістиці. Тезауруси призначені для полегшення пошуку мовних засобів, що виражають це поняття (ідею). Класичним прикладом пошукового тезаурусу є: тезаурус англійських слів та виразів перше видання якого було підготовлено Роджестоном 1852 подібні тезауруси створені і для інших природних мов. Лінгвістичний тезаурус розроблений у зв'язку з автоматизованою підготовкою тексту.
Синтагматичні зв'язки –це співвідношення одиниці мови у даному висловлюванні.
В інституті української мови РАН створено тезаурус семантичних (смислових) та синтагматичних зв'язків між словами та словосполученнями, українську мову як словниково-програмний засіб. Обсяг тезаурусу 64 000 слів та словосполучень.
забезпечувати переклад із природної мови на дескрипторну тобто для координатного індексування документів та запитів.
відображати парадигматичні відносини між лексичними одиницями ІПТ, що використовуються при складанні стратегії пошуку.
Парадигматичні відносини-це логічні та асоціативні відносини між ЛЕ ІПЯ.
служити термінологічним посібником.
ІПТ –це нормативний словник дескрипторного ІПС із зафіксованими в ньому парадигматичними відносинами ЛЕ.
Багатомовний ІПТ- це ІПТ, що містять ЛЕ, взяті з декількох природних мов і представляє еквівалентні за змістом поняття кожною з цих мов.
Метою створення ІПТ є підвищення показника пошуку інформації в ІПТ.
Макротезаурус –ІПТ включає ЛЕ високої спільності тащо покриває широку сферу знання.
Мікротезаурус– спеціалізований ІПТ невеликого обсягу складений на основі вибірки з більш повного ІПТ і додатково включає конкретні українські поняття певної тематики.
Спеціалізований ІПТабо синонім монотематичного ІПТ – ІПТ побудований для відображення галузі знання чи практичної діяльності.
Політематичний ІПТ -ІПТ побудований для широкої сукупності областей знання.
Спеціалізований ІПТ– існує в більшості науки та техніки.
Кількість розроблених мікротезаурусів обчислюється лише нашій країні кілька тисяч.
Макротезаурус та політематичний ІПТ– призначені для використання лексико-тематичної основи при побудові мікротезаурусу.
Політематичний ІПТ включає лише основну лексику тієї чи іншої галузі та найбільш очевидні парадигматичні відносини.
Мікротезаурус включає специфічні терміни власних. наймен. та розвинену парадигмат.
До складу ІПТ входить вступна частина, основна частина (лексико-семантичний покажчик) та додаткові частини.
Вступна частина включає титульний лист та текстові введення.
Введення містить такі дані:
мета створення та сферу застосування ІПТ;
посилання на джерела, що використовуються для збору лексики ІПТ (ін. ІПТ, термінологічні словники);
опис порядку складання ІПТ;
опис складу та структури ІПТ;
кількісні характеристики ІПТ (загальна кількість статей, число дескрипторів та аскрипторів);
перелік відносин між ЛЕ та методикою підстави для їх встановлення.
перелік всіх символів та спеціальних скорочень допустимих для подання ЛЕ.
порядок алфавітного розташування ЛЕ.
Лексико-семантичний покажчик- це основна частина ІПТ в якій в єдиному алфавітному ряду перераховані всі дескриптори та аскриптори із зазначенням їх парадигматичних відносин.
ЛЕ ІПТ –слово, словосполучення, або лексичне значення компонентів складного слова природної мови включене в ІПТ як дескриптор або аскриптор.
Аскриптор (не дескриптор) –ЛЕ ІПТ, яка в пошукових образах документів (запитів) підлягає заміні на дескриптор при пошуку або обробці інформації.
У рамках дескрипторної статті терміни розташовуються в такому порядку:
заголовний дескриптор виділено з допомогою шрифту. Наприклад великими літерами;
лексичну примітку (коротке пояснення уточнення значення дескриптора);
аскриптори або дескриптори синоніми (які йдуть за індексом «С»);
вищі дескриптори, що йдуть за індексом «в»;
нижчі дескриптори наступні за індексом «а»;
дескриптори пов'язані з іншими видами відносин.
Вищестоящий дескриптор,широкий дескриптор- це дескриптор позначає або родове поняття, або ціле по відношенню до даного дескриптора що позначає частину цього цілого.
Нижчий дескриптор або вузький дескриптор —дескриптор, що позначає або видове поняття, або частину, що представляє вищестоящий дескриптор.
Асоціативний дескриптор – дескриптор пов'язаний з іншими семантичним зв'язком, характер якої не вказаний.
Основними типами зв'язку є: причина-наслідок, процес-об'єкт, функціональна схожість, антонімія.
Неоднозначність ЛЕ усувається релятором або лексичною приміткою.
Додатковічастини ІПТ:
Додаткові покажчики служать для розкриття обліку та контролю парадигматичних відносин між дескрипторами, що потрібне при складанні пошукових розпоряджень.
Списки покажчиків є переліком дескрипторів згрупованих згідно з прийнятою в ІПТ рубрикації.
назва дисциплін та галузей діяльності;
методи, процеси, операції, явища;
властивості, величини, параметри, показники;
відносини структури, моделі, закони, правила, абстрактні концепції.
Кожен дескриптор відноситься лише до однієї рубрики. Усередині рубрики дескриптор розташовується в алфавітному порядку.
Ієрархічний –являє собою перелік списків дескрипторів, причому кожен список починається з дескриптора, що не має вищих.
Після кожного дескриптора наведені безпосередньо нижчестоящі дескриптори із зазначенням ієрархічних шляхом застосування нумерації. Або графічні позначення рівня.
Основні переваги дескрипторних ІПСШ:
Найменша порівняно з класифікаційним ІПС трудомісткість розробки;
Можливість здійснити пошук за будь-яким заздалегідь заданим поєднанням характеристик, що входять до ІСЯ;
Можливість автоматичного процесу індексування документів.
Недоліки дескрипторних ІПЯ:
У основних галузях характер дескрипторного ИПЯ ускладнює їх використання обміну інформацією між системами з різними ИПЯ;
Неадекватне значення терміна обрано як дескриптор в різних дескрипторних ІПС.
2. Аналіз інформаційно-пошукового тезаурусу
2.1 Інформаційно-пошуковий тезаурус із збереження документів (БАН)
1. Перший вітчизняний двомовний тезаурус із безпекидокументів, підготовлених у Бібліотеці української академії наук. тезаурус налічує 5166 термінів.
Видання є зразком змішаного двомовного (українсько-англійського) тезаурусу. Основною мовою обрано англійську. Це означає, що як дескриптори обрані англійські терміни, а українські терміни наводяться як синоніми.
Даний інформаційно-пошуковий тезаурус призначений для індексування документів та обробки запитів щодо забезпечення збереження (зберігання) документів у традиційних та нетрадиційних інформаційних системах. Тезаурус може використовуватися як спеціальний двомовний словник при виконанні перекладів з української на англійську та з англійської на українську мову, а також термінологічний словник довідник.
До складу тезаурусу входять:
У лексико-семантичному покажчику тезаурусу розташовані дескрипторні та аскрипторні статті.
У рамках дескрипторної статті терміни розташовуються у такому порядку:
- великі дескриптори виділені великими літерами;
- аскриптори або дескриптори синоніми, які йдуть за індексом "с";
- Вищі дискриптори наступні за індексом «в»;
- Нижчі дескриптори наступні за індексом «н».
c Visitors control
Контроль та керування доступом
в ORGANIZATION OF SECURITY SISTEMS
н ACCESS CONTROL
- Дескриптори пов'язані іншими видами відносин.
2.2 Тезаурус термінів з морської справи та вітрильного туризму. (Інформаційно-пошуковий тезаурус). Упорядник В.М. Білозерів. Москва 2001
1. Тезаурус містить близько 2200 термінів з визначеннями та тезаурусними зв'язками.
Справжній словник-довідник з морської справи та парусного туризму є термінологічним словником,в якому для кожного терміна дано його визначення, за потреби - примітки про характер використання, а також семантичні зв'язки з іншими поняттями.
До складу словника входить вся спеціальна термінологія, необхідна для викладу матеріалу з організації та проведення туристських плавань на транспортабельних розбірних суднах внутрішніми водоймами та прибережними районами морів. Термінологія цього виду діяльності доповнена лексикою класичної парусної справи, парусного спорту, навігації, гідрографії, організації морських перевезень, що дозволяє використовувати словник як довідник з морської справи загалом.
Тематику словника можна зарахувати до наступних рубрик Державного рубрикатора науково-технічної інформації:
71.37.01 Загальні питання туристично-екскурсійного обслуговування
73.34.01 Загальні питання водного транспорту
77.01.33 Термінологія. Довідники, словники, навчальна література з фізичної культури та спорту
77.29.32 Вітрильний спорт. Віндсерфінг
77.29.33 Спортивний туризм
Визначення слід безпосередньо після великої лексичної одиниці, відокремлено від неї тире і набрано шрифтом із зменшеною висотою букв (у цьому варіанті петит не реалізований). У деяких випадках, коли визначення терміна очевидне з його внутрішньої форми, воно не наводиться. У тих самих випадках, коли термін можна визначити з різних сторін і лише в сукупності відповідні визначення описують поняття, наводяться два або навіть три визначення, розділені крапкою з комою.
КЛІВЕР - трикутне косе вітрило, передня шкаторина якого кріпиться до клівер-леєра, що з'єднує стінку з ноком бушприту або утлегарем.
два визначення (з боку значення та з боку форми):
АЗ - прапор ВМСС, що позначаєукраїнську літеру А; червоний з косицями і білим квадратом біля дерева.
У цьому тезаурусі використовуються такі види посилань, які розташовуються у наведеному нижче порядку:
с - у дескрипторній статті вказує на синонімічний аскриптор;
см – в аскрипторній статті вказує на синонімічний дескриптор;
ісп - в аскрипторній статті вказує на кілька дескрипторів, серед яких потрібно вибрати один, що найбільш точно виражає поняття, що цікавить читача;
про - умовне позначення даного поняття;
вр - вищестояще родове поняття;
вц - Вищий термін, що позначає об'єкт, що включає в себе дане поняття в якості своєї складової частини;
вм - безліч, один з елементів якого позначається великою лексичною одиницею;
нв - нижчестояще видове поняття;
нч - нижчий термін, що позначає частину об'єкта, вираженого великою лексичною одиницею;
нэ - нижчестоящий термін, що позначає один з елементів множини, вираженого великою лексичною одиницею;
асх - асоціація за подібністю об'єктів або понять; асм - асоціація щодо суміжності об'єктів, процесів або явищ; ант - антонім, тобто. "протилежне" поняття;
АЗИМУТ — напрям у просторі, виражений щодо країн світу
нв: азимут світила; справжній азимут; компасний азимут; магнітний азимут;
асх: пеленг; румб
асм: кругова система азимутів; румбова система азимутів; четверта система азимутів
3. Цей словник, що розглядається як тезаурус, підготовлений відповідно до ГОСТ 7.25 - 80.
1. ГОСТ 7.24-90. Тезаурус інформаційно-пошуковий багатомовний.
2. ГОСТ 7.25-2001. Тезаурус інформаційно-пошуковий одномовний.
3. ГОСТ 7.74-96.Інформаційно-пошукові мови. Терміни та визначення.