Побудова словника дескрипторної мови

Основні характеристики.

Аналіз та побудова словника дескрипторної мови.

Для побудови необхідно вирішити такі завдання,

  1. вибрати із заданої сукупності текстів лексичні одиниці
  2. визначити семантичні та морфологічні характеристики
  3. розмістити ключові слова у певному порядку.

Існують 3 підходи до складання словника.

  1. Апріорний– терміни вибираються вільно à обробляються à будується словник
  2. Апосторіорний– перелік термінів заданий точніше à обробка …
  3. Динамічний– процес накопичення лексики, коли поповнення словника, обробка нових лексичних одиниць та експлуатація об'єднані разом, тобто є можливість поповнення словника новими термінами.

Залежно від способу побудови словника використовують різні кількісні характеристики для оцінки слів.

Характеристики слів включення до словника.

  1. інформативність
  2. зміна значення слова у часі
  3. нормалізованість
  4. відносини між словами
  5. синонімія, полісемія, омонімія

Перевагу віддають найбільш стійким за значенням слів у часі, намагаються виключити найрідкісніші і найчастіше зустрічаються слова. При складанні враховуються зв'язки між термінами: полісемія, синонімія, омонімія, парадигматичні зв'язки (що враховані зв'язки, то сильніший словник). Але це дуже трудомістка робота, і тому найчастіше враховуються лише сильні парадигматичні відносини та багатозначність.

Важливо визначити докладність словника. Це – одне із складних завдань. Деталізація визначає повноту пошуку та йоготочність. Зручно використовувати словники з різним ступенем деталізації.

Кількісні характеристики словників.

  1. Кількість типів слів у списку.
  2. Загальна кількість лексичних одиниць (в сукупності з потужністю мови дуже виразна). Чим більша загальна кількість одиниць та їх потужність, тим більша вибірковість мови, тим вона семантично сильніша.
  3. Коефіцієнт відображення лексики пошукового масиву, який включає ключові слова та відображає лексику словникового масиву. Коефіцієнт = ключові слова/(ключові слова + дескриптори). Чим слова більш наближені до тематики, тим цей коефіцієнт вищий.

  1. Повнота словника. Наскільки повно словник відбиває предметну область, на яку він створено, тим повніше розраховується співвідношення якості понять предметної області та кількості понять, які відбиває ИПЯ.

S0 – кількість лексичних одиниць слів, якими має вестися пошук (визначається за масштабом запиту)

Sn – кількість відсутніх у словнику одиниць, кіт виявляються за порівнянні S0 про те, що є у словнику.

  1. Коефіцієнт динаміки зростання.

K=Sd/D, де Sd – кількість введених у словник лексичних одиниць у процесі обробки документів (D).

  1. Ранговий розподіл слів (частотний розподіл слів). Дозволяє оцінити лексичні одиниці з погляду частоти використання при індексуванні. Воно важливо при індексуванні, тому що включаючи в пошуковий образ слова з малою частотою – зростає точність, а чим більша частота, тим менша точність.
  2. Розподіл лексичних одиниць за довжиною. Як правило, воно розраховується по відношенню до словосполучення, тоді як такий показник може служити ціла довжина,характеризує ступінь передкоординатності мови. Якщо для кожної кількості слів визначати частку таких словосполучень стосовно максимальної кількості слів у словосполученнях.
  3. Розподіл лексичних одиниць за кількістю символів. Як кількісна оцінка – середня кількість символів у лексичній одиниці або розподіл лексичних одиниць за кількістю символів. Елемен цього розподілу: ci=Bi/C де

Bi – кількість слів, що містить i символів,

C – максимальна кількість символів у лексичній одиниці.

Облік синтагматичних відносин.

Для цього найчастіше використовуються покажчики ролі та покажчики зв'язку.

  1. Покажчики ролі – символи, які приєднуються до дескрипторів з метою вказівки тих функцій, які виконують дескриптори в пошуковому образі.

Док. 1 «Виробництво запасних частин у верстатах»

Док. 2 "випуск верстатів для виробництва запасних частин"

Символи: П – процес, Про – об'єкт, Н – призначення.

Док.1 П – виробництво, Про – запчастини, Н – верстати

Док.2 П – виробництво, Н – запчастини, Про – верстати, Н – випуск.

  1. Покажчики зв'язку – символи, які приєднуються до дескрипторів пошукових образів і є для смислового формування дескрипторів у пропозицію, тобто вирішуються завдання фрагментирования. Зазвичай їх використання актуально, як у першій фразі – кілька тем. Покажчик у кожному окремому аспекті тексту (один і той самий для кожного слова у даному відрізку тексту). Покажчики ролі можуть бути більш складними, включати в себе розділові знаки, дужки.

Семантичні коди.

Ця мова цікава тим, що структури цієї мови враховують парадигматичні відносини між ними. Існує 2 підходи.

  1. облік парадигматичних зв'язків у кодовому описі, де в багатозначному кодовому записі кожен наступний символ повністю визначається всіма попередніми та характеризує родовидові відносини між дескрипторами та ставленням, що входять до класів.

Відносини входження до класів укладені у структуру коду:

А включає А41 включає А41С і т.д.

  1. мова семантичних кодів побудований за іншим принципом. Код побудований на основі припущення: його структура повинна якнайточніше відображати

про предмети та його відносини (взаємозв'язок між предметами – будь-які парадигматичні відносини).

Предмети + їхні стосунки = ситуація.

Ситуація - кінцева безліч предметів і зв'язуючих їх відносин.

Приклад: ситуація – людина йде. Об'єкт – людина, ходьба. Відносини – бути студентом.

Предметам, відносинам та ситуаціям відповідають у мові 3 види семантичних одиниць: терміни, словосполучення, речення.

Це підходи, реалізація їх залежить від мови.

  1. Найбільш поширена мова – мова біт або RX коди.

X1 – 1 предмет, X2 – 2 предмет: X1 R X2 – між X1 і X2 існує ставлення R.

Це ще один з варіантів вираження парадигматичних відносин.

  1. Синтагматичні мови – посткоординатні мови, до яких парадигматичні відносини між лексичними одиницями виражаються як і в дескрипторній мові у словосполученнях, а синтагматичні – за допомогою дуже розвиненої системи засобів, що надає велику синтагматичну силу.

Висновок: в мовах враховуються і парадигматичні, і синтагматичні відносини вже в момент створення, що закладено в них.

  1. Вид мови – Ri(X,Y) – відношенняR між ключовими словами X та Y.

Це деякі логіко-лінгвістичні рамки, в які укладаються всі можливі ситуації, характерні для предметної галузі.

Крім мов для тематичного пошуку, існують мови іншого призначення. В основі побудови таких мов є побудова певних і заданих зв'язків між одиницями, то їх сама назва – мови зв'язків, оскільки саме вони дозволяють легко встановлювати зв'язки між об'єктами і скомплектовувати їх. Це зовсім інший принцип побудови мови. За способом встановлення зв'язку між цілим та частиною ІПЯ комплек. Можуть бути поділені на:

  1. прості специфікації мови
  2. складні специфікації мови

Специфікація – структурована форма уявлення зв'язку. Я зиг ком. Для побудови зв'язку сильної специфікації називаються специфікаційними.

Прості специфікаційні мови – зв'язки реалізуються за допомогою простого специфікаційного списку. У ньому в алфавітному порядку (або в іншому) перераховуються основні частини про. без вказівки на будь-які зв'язки між частинами.

Складні специфікаційні мови – реалізуються зв'язки з допомогою упорядкованого набору підпорядкованих простих специфік, тобто будується певна ієрархія.

Ці мови досить активно використовують у управлінні документами.

У специфікаційних мовах є певна форма структурованих зв'язків.

Розвиток цих мов – гіпертекстові мови.

Системи індексування.

Індексування – переклад запиту з ЄЯ на ИПЯ (згортання тексту + збереження сенсу).

Індексування – вираження центральної теми документа засобами ІПСШ, виразами ПОДу та ПОЗа.

Існує 2 підходи до індексування:

  1. інтерпретація- текстна ЇЯ à сенс-текст на ІПЯ. Інтерпретація передбачає вивчення тексту, його аналіз, виявлення змісту, переклад його ІПЯ, тобто. Кінцевий результат вивчення – текст.
  2. переклад– заміна лексичних одиниць ЕЯ на лексичні одиниці ІПЯ, тобто. послівна обробка.

Індексування як процедура схожа на переклад з ЄЯ на інший ЕЯ, різниця: ІПЯ – формальна мова.

Остання модифікація цієї сторінки: 2016-08-11