Застосування семантичних мереж для аналізу тексту.

Семантичні мережі використовуються для аналізу тексту, в основі якого лежить уявлення змісту тексту у формі асоціативної семантичної мережі. Семантична мережа - це безліч понять (слів та словосполучень), пов'язаних між собою. У семантичну мережу включаються слова тексту, що найчастіше зустрічаються, які несуть основне смислове навантаження. До кожного поняття формується набір асоціативних (смислових) зв'язків, тобто. Список інших понять, у поєднанні з якими воно зустрічалося в реченнях тексту. При цьому вважається, що чим частіше зустрічаються разом два поняття у реченнях тексту, тим вища ймовірність того, що вони пов'язані за змістом.

Оригінальні лінгвістичні алгоритми використовують морфологічний та синтаксичний аналіз, а також тезаурус української мови для ототожнення близьких за змістом слів та словосполучень. Наприклад, такі вирази, як "втрата кількох бібліотечних книжок" та "втрата двох бібліотечних книжок", наводяться до одного поняття "втрата бібліотечної книги". Крім того, з понять виключаються загальновживані слова, які не несуть самостійного смислового навантаження або мають широке значення.

Максимальне значення тематичної ваги (рівне 100) відповідає ключовій (найважливішій) темі документа. Близьке до нуля значення ваги теми показує, що вона лише побіжно згадана в тексті, і в ньому мало відомостей, що належать до цієї теми.

Зв'язки між парами тим, у свою чергу, мають характеристики ваги зв'язків (від 0 до 100). Велике значення ваги зв'язку від однієї теми до іншої, близьке до 100, вказує на те, що переважна частина інформації в тексті, що стосується першої, стосується одночасно і другої теми - перша тема майже завжди викладається вконтекст другий. Мале значення ваги відбиває той факт, що перша тема слабо пов'язана з другою (викладається незалежно від неї). Зв'язок між парою тем мережі завжди двостороння, однак, зв'язок від першої теми до другої не завжди має ту саму вагу, що й зворотна - від другої до першої. Така відмінність у терезах може вказувати на те, що одна тема є підтемою іншої.

Семантична мережа є тематичний індекс аналізованих текстів, який використовується для пошуку документів за темами та їх зв'язками, а також для розширення запиту асоціативно пов'язаними темами. За кожною з тем мережі формується набір речень тексту – цитат, що належать до відповідної теми, які представляють тематичне резюме (реферат) тексту.

Крім того, виконується ранжування цих пропозицій за вагами (від 0 до 100), які відображають їхню інформативність для відповідної теми та дозволяють вибрати в резюме лише найбільш інформативні пропозиції. Загальне резюме тексту формується із найбільш інформативних фрагментів за ключовими темами документа.

Знання асоціативних зв'язків дозволяє виявити приховані залежності між об'єктами-темами, які цікавлять аналітика – подіями, персоналіями, організаціями тощо.

При аналізі тексту можна скористатися семантичної мережею, побудованої з урахуванням інших текстів (еталонних), чи заданої вручну експертом. Наприклад, якщо є семантична мережа, що представляє відому модель предметної області, то її можна використовувати для фільтрації інформації в потоці новин, виловлюючи в тексті згадки про відомі об'єкти і знаходячи підкріплення відомих взаємозв'язків, а також шукати нові зв'язки між заданими об'єктами.

Робота з семантичною мережею може допомогти аналітику у вирішенні наступних завдань:

  • Дослідження тематичного складу цільової колекції документів - наприклад, потоку новин за обраний інтервал часу. Виявлення ключових тем та їх зв'язкових скупчень (семантичних полів), що знаходяться у фокусі уваги та впливають на розвиток ситуації. Моніторинг динаміки інформаційного потоку в часі в термінах потужності ключових тем та їх зв'язків.
  • Пошук нової, несподіваної інформації, пов'язаної з об'єктом-темою, що досліджується. Інтерес для експерта можуть являти приховані в документах зв'язки з іншими об'єктами (персонами, організаціями, подіями), виявлені в семантичній мережі, а також асоціативні ланцюжки, що пов'язують задані об'єкти.
  • Виявлення у документах підкріплень відомих та невідомих зв'язків між об'єктами-темами. Пошук конкретних документів, що розкривають зв'язки, що цікавлять, дозволяє експерту отримати детальне уявлення про характер відносин між об'єктами.