ВИКОРИСТАННЯ ТЕОРЕТИКО-МНОЖНОГО ПІДХОДУ ДЛЯ ПОШУКУ НЕОБХІДНОГО КОНТЕНТУ ПО АТРИБУТАМ І
При розробці апаратно-програмного комплексу музеїв та картинних галерей стояло завдання реалізувати оптимальний підбір експонатів. Розроблені програмні засоби повинні підтримувати пошук необхідного контенту за атрибутами та ключовими словами.
Для вирішення цього завдання було використано теоретико-множинний підхід.
Теоретико-множинний підхід передбачає аналіз множини інформаційних повідомлень, об'єктів тощо. з погляду їх кількісних ознак. Тут немає повного відмежування від якості досліджуваних інформаційних об'єктів та його елементів. Навпаки, саме дослідження формалізованих множин, повідомлень (наприклад, даних судової статистики та інших.) постійно передбачає наявність будь-яких якісних моментів, ознак, дозволяють говорити зміст досліджуваних інформаційних повідомлень. Зміст пошуку якісного аспекту інформації полягає в тому, щоб виділяти, вивчати та досліджувати характеристики множини повідомлень у зв'язку з якісними моментами складових його частин.
Одним із шляхів вирішення завдання щодо перетворення потенційної інформації на інформацію актуальну є використання найбільш раціональних засобів кодування (декодування) інформації (наприклад, визначення в цифровому коді ЄДРПОУ інформації про підприємство або вираження тексту закону в умовних символах спеціальної інформаційно-пошукової мови).
Формальна постановка задачі
Для позначення ефективного алгоритму пошуку оптимальних експонатів виставкового центру у відповідь на запит користувача зручно використовувати теоретико-множинний підхід. Досліджувані об'єкти представимо у вигляді безлічі їх властивостей, які визначені для оцінки в процесі пошуку:
де O - Досліджуваний об'єкт; p – властивість, якабере участь у пошуку.
Пріоритетність властивостей при пошуку та оцінці релевантності відображається у вигляді безлічі вагових коефіцієнтів, які визначаються шляхом експертного аналізу об'єкта, що досліджується (в даному випадку – експонату виставки).
Пошуковий запит відповідно до теоретико-множинного підходу зручно подати як безліч слів. Крім того, для підвищення ефективності та точності пошуку, а також для забезпечення високої достовірності результатів з безлічі слів пошукового запиту видаляються всі повторення та семантично «слабкі» конструкції (наприклад, спілки та прийменники).
де R – пошуковий запит; w – слово у запиті; Fsem(w) – функція визначення семантичних відповідностей слова.
Функція визначення відповідності властивості досліджуваного об'єкта слову із запиту визначається як добуток відповідного вагового коефіцієнта та показника оціночної функції входження слова у значення властивості:
Feval(p, w) = kp∙Fex(p, w), (4)
де p – властивість об'єкта; w – слово у запиті; kp – ваговий коефіцієнт властивості; Fex - оцінна функція народження слова у значенні якості.
Оціночна функція народження слова залежить від способу інтерпретації значення властивості та цілей пошуку. Наприклад, для атрибуту «Автор твору» сутності «Експонат» оцінна функція народження слова може бути визначена системою наступного виду:
(5)
де pauth - властивість "Автор твору"; w – слово пошукового запиту; val(pauth) – безліч значень якості «Автор твори» кожному за об'єкта.
Використовуючи уявлення (1) і функцію (4), інтегральний показник відповідності об'єкта досліджуваного пошуковому запиту (релевантність) визначаємо як середнє арифметичне суми показників функції(4):
(6)
Результати оцінки релевантності для відповідних об'єктів і самі досліджувані об'єкти подаються у вигляді множини, елементи якої сортуються за зменшенням рівня релевантності.
1. Дано безлічі властивостей об'єктів O =
= і безлічі вагових коефіцієнтів = , Визначають пріоритетність властивостей.
2. Вводимо в рядок пошуку запит R, що включає слова wi ().
3. Визначаємо відповідність властивості об'єкта досліджуваного слову із запиту за формулою
Feval(p, w) = kp∙Fex(p, w),
де Feval(p, w) = kp∙Fex(p, w) дорівнює 1, якщо слово входить у властивість, 0 інакше.
4. Визначаємо середню арифметичну суми показників функції Feval(p, w) = kp∙Fex(p, w)
5. Сортуємо об'єкти в порядку зменшення рівня релевантності, визначеного на кроці 4.
6. Виведення об'єктів.
Приклад вирішення задачі пошуку необхідного контенту за атрибутами та ключовими словами
Дано табл. 1, що містить деяку кількість експонатів.
Задаємо безліч властивостей для оцінки в процесі пошуку