4.3.4. Інтелектуальний аналіз даних (іад)

Інтелектуальний аналіз даних (ІАД, добування знань – ІЗ, англ.DataMining–DM)– процес виявлення у сирих даних нових, нетривіальних, інтерпретованих, практично корисних знань, необхідні прийняття рішень у різних сферах людської діяльності.

Сирими даними (rawdata)називаються необроблені дані, скорочення обсягу яких не проводилося за рахунок заміни деяких значень величинами, похідними від них ( наприклад, середніми значеннями).

Різновиди ІАД: перевірка гіпотез (verification-driven data mining – VDDM) та пошук закономірностей (discovery-driven data mining – DDDM).

DDDM використовує концепцію патернів (шаблонів), що відбивають фрагменти багатоаспектних відносин у предметній галузі. Ці шаблони є закономірності, властиві підвибіркам даних. Пошук такого роду шаблонів не повинен обмежуватися апріорними припущеннями про структуру вибірки та розподіл значень аналізованих показників.

VDDM ґрунтується, головним чином, на методах матстатистики. Обмеження використання методів матстатистики накладають такі чинники, властиві реальним завданням обробки данных:

різнорідність даних (кількісні, якісні, текстові);

вимога інтерпретованості результатів;

простота користування (користувач інструменту ІАД не може бути ні математиком, ні інженером).

Основною причиною невідповідності методів математичної статистики вимог ІАД є оперування з фактично фіктивними величинами (типу "середня температура по палаті"). Основне застосування матстатистики в області ІАД – грубий оцінний аналіз.

4.3.4.2. Теоретичні основи ІАД. Типизакономірностей та приклади застосування ІАД

ІАД заснований на методології, що називається "Виявлення знань у базах даних" (knowledge discovery in databases – KDD). Її визначають як мультидисциплінарну область, що виникла на базі:

теорії баз даних (DW, OLAP),

теорії штучного інтелекту (розпізнавання образів, теорія експертних систем, нейромережева технологія),

Методи ІАД дозволяють виділяти такі основні типи закономірностей:

Асоціація – виявлення зв'язку (сумісності) кількох подій.

Послідовність – асоціація з урахуванням тимчасової складової.

Класифікація – виділення ознак класів (згрупованих даних).

Кластеризація – формування класів.

Приклади аналізу закономірностей зазначених типів під час вирішення завдань у різних предметних областях наведено у таблиці 13.

Таблиця 13 – Приклади застосування ІАД

Аналіз купівельного кошика (подібності)

Дослідження тимчасових шаблонів активності покупців

Застосування – створення товарних запасів

Виявлення шахрайства із кредитними картками

Виявлення стереотипів поведінки шахраїв у результаті аналізу історичних даних

Виявлення орієнтованості різних груп клієнтів на різні види послуг

Аналіз записів про докладні характеристики дзвінків

Виявлення стереотипів користування послугами та розробка привабливих наборів цін та послуг

Виявлення лояльності клієнтів

Опис характеристик клієнтів, схильних до неодноразового користування послугами компанії

Виявлення стереотипів поведінки шахраїв

Перегляд політики надання знижок у результаті аналізу факторів, пов'язаних із сплаченими заявами

4.3.4.3. Класисистем ІАД

1. Предметно-орієнтовані аналітичні системи

Основою таких систем є закладена у них модель предметної області. Одним із найбільш типових класів цих систем є системи аналізу фінансових ринків, побудовані на основі методів технічного аналізу. Він є сукупністю кількох десятків методів прогнозу динаміки цін і вибору оптимальної структури інвестиційного портфеля, заснованих на різних емпіричних моделях динаміки ринку. Ці методи можуть використовувати математичний апарат різного ступеня складності:

Віднімання трендового значення.

Використання статистичних показників.

Такі системи слід визначити як спеціалізовані ІС. Як наслідок, їм властиві такі переваги:

Вимога статистичної значимості задовольняється за визначенням, т.к. вся теорія "зашита" у використовуваних алгоритмах.

Вимога інтерпретованості задовольняється з тієї ж причини. Орієнтація на термінологію предметної галузі є.

Зазвичай мають інтерфейси для завантаження фінансових даних.

Основний недолік – також наслідок спеціалізації – незастосовність за умов інших моделей ринків (наприклад, модель сучасного українського ринку істотно відрізняється від західної).

Вартість предметно-орієнтованих аналітичних систем, як правило, 300-2000 дол. Приклади: MetaStock (компанія Equis International), SuperCharts (Omega Research), Candlestick Forecaster (IPTC), Wall Street Money (Market Arts).

2. Статистичні пакети

Основою є використання кореляційного, регресійного, факторного аналізу та інших математичних методів.

Високі вимоги до спеціальної підготовки користувача. Длявикористання статистичних процедур потрібно мати статистичними знаннями. Для автоматизації багаторазових операцій необхідно програмувати внутрішньою мовою.

Досить дороги – 1000 – 15000 дол.

Приклади: SAS (компанія SAS Institute), SPSS (SPSS), STATGRAPHICS (Manugistics), STATISTICA, STADIA та інші.

3. Нейронні мережі

Це великий клас систем, тим чи іншим способом (як правило, суто програмним), що моделюють нейронну мережу. Підхід ефективний у завданнях розпізнавання образів, проте він майже не застосовується до більшості фінансових та економічних завдань, особливо в умовах економічної нестабільності.

Основні недоліки нейромережевої парадигми:

Необхідність навчальної вибірки великого обсягу.

Неінтерпретованість знань, що накопичуються.

Практика застосування нейромереж для аналізу ринків показала, крім того, наступний недолік. Адекватні моделі, що показують задовільний результат на навчальній вибірці, виходять тільки за високої складності мережі (тобто великої кількості нейронів та зв'язків між ними). У випадках, коли складність мережі перестає відповідати обсягу навчальної вибірки, навчання зазвичай неефективне. В результаті спостерігається явище «перенавчання». Прогностичні можливості такої мережі мінімальні.

Приклади: BrainMaker (CSS), NeuroShell (Ward Systems Group), OWL (HyperLogic). Вартість їхня досить значна: $1500–8000.

4. Системи міркувань з урахуванням аналогічних випадків (case based reasoning – CBR, memory based reasoning, метод " найближчого сусіда " – nearest neighbour).

Принцип дії: Ці системи знаходять у минулому близькі аналоги готівкової ситуації та обирають ту саму відповідь, яка була для них правильною.

Показують дуже добрірезультати у найрізноманітніших завданнях.

Взагалі не створюють жодних моделей чи правил, що узагальнюють попередній досвід.

Свавілля, що допускається при виборі міри "близькості". Від цього заходу залежить обсяг безлічі прецедентів, які потрібно зберігати у пам'яті задля досягнення задовільної класифікації чи прогнозу.

Приклади: KATE tools (Acknosoft, Франція), Pattern Recognition Workbench (Unica, США).

Вартість – близько 10 тис. дол.

5. Дерева рішень

Цей метод придатний лише вирішення завдань класифікації, і тому дуже обмежено застосовується у сфері фінансів та бізнесу, де найчастіше зустрічаються завдання чисельного прогнозу. В результаті застосування цього методу до навчальної вибірки створюється ієрархічна структура класифікуючих правил типу "ЯКЩО. ТО.", Що має вигляд бінарного дерева.

Основна перевага – наочність уявлення правил.

Основний недолік. Чим більше "кущистость" дерева, тим менше навчальних прикладів потрапляє у кожен окремий випадок ("аркуш"). При цьому перестає дотримуватись вимоги статистичної обґрунтованості. Реалізований у деревах рішень метод послідовного перебору не дозволяє вибрати найбільш ймовірне рішення. Вибір фактично першого рішення особливо небезпечний при високій "кущистості". Як показує практика, у більшості систем, які використовують дерева рішень, ці проблеми не знаходять задовільного рішення. Проте чимало систем використовують цей метод.

Приклади: С5.0 (RuleQuest, Австралія), Clementine (Integral Solutions, Великобританія), SIPINA (University of Lyon, Франція), IDIS (Information Discovery, США).

Вартість – близько 10 тис. дол.

6. Генетичні алгоритми

Генетичні алгоритмиє програмно реалізовану біоніку. Їхні основні етапи: формування популяції правил у вигляді аналогічних структур, природний відбір (скорочення найменш ефективних особин), генерація нових правил шляхом схрещування відповідно до законів генетики. Етапи повторюються циклічно.

Недоліки генетичних алгоритмів:

Постановка завдання у тому термінах це не дає можливості проаналізувати статистичну значимість одержуваного рішення.

Критерій "природного" відбору є евристичним, коректно та ефективно сформулювати його здатний лише фахівець. За наявності кількох експертів можливі різні формулювання критерію.

Складність обробки локальних екстремумів, часом непередбачуваність.

приклад: система GeneHunter фірми Ward Systems Group. Вартість – близько 600 дол.

7. Еволюційне програмування

Наймолодша і найперспективніша галузь data mining, реалізована, зокрема, у системі PolyAnalyst. Суть методу в тому, що гіпотези про вид залежності цільової змінної від інших змінних формулюються системою у вигляді програм деякою внутрішньою мовою програмування. Процес побудови цих програм будується як еволюція у світі програм (схожість із генетичними алгоритмами). Коли система знаходить програму, що досить точно виражає шукану залежність, вона починає вносити до неї невеликі модифікації та відбирає серед побудованих таким чином дочірніх програм ті, що підвищують точність. Спеціальний модуль, що транслює, системи PolyAnalyst перекладає знайдені залежності з внутрішньої мови системи на зрозумілу користувачеві мову (математичні формули, таблиці та ін.), роблячи їх легкодоступними.

Вартість – до 5000 дол.

8. Нелінійні регресійніметоди

Пошук залежності цільових змінних з інших ведеться у вигляді функцій якогось певного виду. Наприклад, у одному з алгоритмів цього – методі групового обліку атрибутів (МГУА) залежність шукають у вигляді поліномів. Очевидно, цей спосіб дає більш статистично значні результати, ніж нейронні мережі. Отримана формула залежності в принципі піддається аналізу та інтерпретації (хоча на практиці все ж таки буває надто складна для цього).

Приклад: лінійка продуктів NeuroShell компанії Ward Systems Group, вартість – від 500 до 900 дол., з налаштуваннями на предметні області – від 1500 дол. до 3500 дол.

9. Алгоритми обмеженого перебору

Було запропоновано в середині 60-х М.М. Бонгардом для пошуку логічних закономірностей у даних. Продемонстрували свою ефективність при вирішенні безлічі завдань із різних областей.