Координатне індексування
Координатне індексування - Лекція, розділ Інформатика, Основи інформатики Нова Технологія Прийшла В Інформаційний Пошук У Виді Методу Координатного Ін.
Переваги цього методу очевидні. Насамперед, інформаційні працівники та споживачі інформації звільняються від жорстких рамок класифікаційних схем та переліків предметних рубрик. Індексування нових документів ведеться без огляду на відображені в них потенційні запити фахівців, які часто вже застаріли. З іншого боку, індексування звільняється від суб'єктивізму – ключові слова обираються формально. Цю роботу, в принципі, можна доручити автомату. У багатьох сучасних інформаційно-пошукових системах оператор вводить у машину бібліографічні дані документа, його реферат (анотацію, резюме), котрий іноді найінформативніші частини тексту (наприклад, перший і останній абзаци статті, містять найбільше термінів, які стосуються її змісту). За допомогою "заборонного" списку службових та загальнозначимих слів, введених у комп'ютер, здійснюється автоматичний відбір ключових слів, які програмно приводяться до нормального вигляду (однина називного відмінка іменників і прикметників, інфінітив дієслів). Це суттєвий крок до автоматизації введення інформації до інформаційно-пошукової системи.
Під час пошуку необхідної інформації фахівець може формулювати свій запит у вигляді ланцюжка термінів, на перетині яких і виявиться більшість документів, що містять необхідну інформацію. У цьому споживач може довільно змінювати стратегію пошуку залежно від оцінки його проміжних результатів. Якщо документів на запит мало або немає в системі, можна зняти з запиту будь-які ключові слова (у наведеному вище прикладі "газ" і "захист"). Тодісистема видасть документи ширшого змісту про корозію лопаток турбін, в яких все ж таки може міститися потрібна інформація. У випадку, якщо документів на запит занадто багато, можна додати ключові слова, що обмежують пошук, наприклад, певним класом турбін або конкретними методами захисту їх лопаток від корозії. У цьому полягає важливий елемент можливості діалогу із системою з допомогою слів природної мови.
Основні переваги цього принципово нового підходу до розкриття змісту документів та пошуку інформації полягають у тому, що він дозволяє знаходити інформацію за будь-яким, заздалегідь не передбаченим поєднанням ознак. Крім того, при появі нових напрямів досліджень можна вести пошук у всьому масиві документів, раніше заіндексованих за цим методом. Традиційні методи такі можливості не надавали.
Було б несправедливо промовчати, що переваги нового методу доводиться оплачувати подоланням додаткових труднощів. Насамперед пошук з використанням природної мови обмежує його рамками знайомих користувачеві мов. Щоб розширити це коло, доводиться вдаватися до словників. Потім, кожна природна мова відрізняється багатством свого словникового складу - слова, однакові за написанням, можуть мати різний зміст (багатозначність, омонімія), а те саме поняття може виражатися різними термінами (синонімія). Запитавши інформацію про косах, ви отримаєте відомості не тільки про сільськогосподарські знаряддя, а й про географічні об'єкти, а можливо і про зачіски. Бажаючи отримати документи про транзистори, слід пам'ятати, що вони можуть також називатися напівпровідниками.
Терміни знаходяться у складних взаєминах між собою, виражають більш вузькі або ширші поняття,можуть бути пов'язаними за подібністю, за контрастом або за іншими асоціаціями. Щоб мати можливість враховувати це під час пошуку, доводиться складати кожною мовою спеціальні понятійні довідники (тезауруси). Вони кожного поняття (класу умовної еквівалентності) вибирається один термін –дескриптор, а інших слів вказується їх зв'язок з дескриптором. Тезаурус іноді називають дескрипторними словниками, а сам пошук з їх використанням дескрипторним. Крім словників для пошуку за ключовими словами та дескрипторами часто створюють спеціальну граматику, Необхідність у ній викликається виникненням хибної координації термінів, помилковим їх поєднанням. У відповідь на запит "труби" х "мідь" х "свинець" х "покриття" можна отримати не тільки необхідну інформацію про покриття мідних труб свинцем, а й про покриття свинцевих труб міддю.
Заради курйозу, слід згадати, що метод координатного індексування для пошуку інформації, що став принциповим кроком до нової інформаційної технології, насправді нововведенням не був. У 1915 р. він був реалізований на перфокартах американським орнітологом Т. Тейлором при складанні визначника птахів, а у Б. Віккер виникло припущення, що шумерські лікарі ще в III тисячолітті до н. е. користувалися діагностичними пристроями, які працювали за цим принципом. На глиняних клинописних плитках записувалися симптоми хвороб, а під кожним з них – назви хвороб, за яких ці симптоми зустрічаються. Сукупність симптомів становила координатну сітку, а збігаються всім симптомів назви хвороб – найімовірніші недуги хворого.
З цього зрозуміло, що інформаційно-пошукові системи, що базуються на принципі координатного індексування, можуть бути реалізовані найпростішими засобами ручногозвернення. Система "унітерм-карт" самого М. Таубе була особливим чином організованою картотекою, що дозволяла легко порівнювати номери документів, щоб виявити збігаються номери для заданих термінів ("унітермів"). Перші інформаційно-пошукові системи такого типу часто створювалися на просвітних перфокартах. Проте справжній розмах створення координатних, здебільшого дескрипторних систем отримало, що вони почали використовувати комп'ютери другого покоління. У 60-70-ті роки на базі найбільших у світі реферативних служб були створені потужні автоматизовані інформаційні системи, які призначалися для прискорення випуску інформаційних видань і розширення спектра інформаційних послуг, а потім стали основними генераторами документальних баз даних на магнітних стрічках.