Нейронна мережа (карта, що самоорганізується) Кохонена для візуалізації та аналізу даних

Самоорганізована нейронна мережа (карта) Кохонена виконує проектування багатовимірних даних у простір меншої розмірності (зазвичай двовимірне) і застосовується зазвичай на практиці при візуалізації даних, щоб людина змогла "побачити" наявність або відсутність кластерної структури в даних, число кластерів, закони спільного розподілу ознак, залежності між змінними. Мережі Кохонена (квантуючий шар нейронів без латеральних взаємодій) у замітці не розглядаються - їхня поведінка не відрізняється від дії методу динамічних ядер (k-means). Розглядаються саме карти Кохонена, що самоорганізуються, - нейромережі, при навчанні нейронів яких враховується топологія мережі і використовується функція, що задає вплив нейрона на його сусідів. Хоча в літературі терміни "мережа Кохонена" та "карта Кохонена" при розгляді саме карт досить часто вживають рівноправно, але тут я у випадках, коли виникатимуть слова "мережа", "нейросеть", прошу розуміти під ними не квантуючу мережу Кохонена, а саме топологічну карту Кохонена.

При використанні карт Кохонена ніхто зазвичай не замислюється, що самі по собі ці нейронні мережі завдання кластерного аналізу та ідентифікації залежностей не вирішують. Вони тільки дозволяють за "розмальовками" картивисунути гіпотезипро наявність кластерної структури і кількість кластерів, залежність між значеннями окремих змінних. Висунуті гіпотези повинні перевірятися та підтверджуватись іншими способами. Більш того, в [1,2] показано, що карти Кохонена можуть призводити як до формування помилкових гіпотез, так і до неможливості побачити окремі реально наявні та статистично достовірні залежності вданих . Але періодичні критичні роботи (наприклад, [1,2]) досі не привернули до себе широкої уваги. А жаль.

Нотатка написана саме тому, що при першому ж випадку, коли я спробував реально використовувати карти Кохонена (раніше користувався іншими способами візуалізації та розвідувального аналізу даних), я повною мірою цю безвідповідальну поведінку карт Кохонена відчув на власній шкурі. Добре, що під рукою були й інші методи візуалізації даних, і фахівець у тій предметній галузі, з якої аналізувалась вибірка даних (цей спеціаліст-експерт теоретично міг оцінити правдоподібність результатів та гіпотез, отриманих у процесі аналізу даних). І не варто грішити на помилки в моєму нейрософті - я спочатку спробував використовувати широко поширені стандартні нейропрограми, і тільки після стабільного отримання незадовільних результатів сам запрограмував кілька алгоритмів "картографування", щоб глибше залізти "в потруху" карт і визначити, де ж заритий собака.

Відкопані результати я тут афішувати не буду (нехай поки що залишиться моїм ноу-хау), а обмежуся розглядом лише методологічних питань, оскільки вони багато в чому і є базовими і визначальними.

Повинна бути побудована жорстка теоретична методологія вибору налаштувань карт Кохонена під час моделювання та візуалізації даних, перевірки адекватності побудованої мережі-карти. Побудова карти Кохонена передбачає виконання наступних кроків:

вибір топології нейронної мережі-карти (наприклад, виду осередків - прямокутних чи гексагональних);
вибір розміру карти (числа нейронів у нейромережі Кохонена) та її геометрії;
початкова ініціалізація положення картки (випадково, у площині двохосновних компонентів вибірки даних, або іншим способом);
вибір критерію близькості між точкою даних та нейроном нейронної мережі (наприклад, евклідова відстані);
вибір алгоритму навчання та його налаштувань, правила зупинення процесу адаптації карти Кохонена;
підтвердження адекватності навченої мережі, наприклад, обґрунтування правильності вибору розміру мережі шляхом порівняння значень залишкових дисперсій та топологічних помилок для кількох мереж різного розміру;
аналіз топологічної помилки збудованої карти, тобто. чутливість розподілу векторів даних по нейронах нейромережі та чутливість розмальовок карти до малих змін положення точок даних - локалізація областей з відносно високою топологічною помилкою;
вибір способу проектування даних на карту: у вузол (тобто нейрон карти), на надбудовану над картою шматково-лінійну безперервну апроксимацію (наприклад, шляхом тріангуляції осередків карти), гладку апроксимацію карти, або іншого способу;
повторення етапу аналізу топологічної помилки, якщо проектування був обраний інший критерій близькості, а чи не той, який використовувався на етапі побудови карти;
вибір способу забарвлення точок-проекцій.

Всі ці кроки зазвичай виконуються некритично (а деякі взагалі не виконуються), не зважаючи на властивості аналізованої вибірки та інші моменти. А саме чітке розуміння того, які погані і хороші властивості має обраний набір налаштувань і алгоритмів, і дозволяє оцінити, які помилкові гіпотези можуть бути сформовані, повз які властивості даних можна пройти і їх не помітити, і як потрібно перевіряти набір сформованих при аналізі карти Кохонена гіпотез.

Затребувані карти Кохонена, що оперують у гетерогеннихпросторах (термін взятий з роботи [3], де під гетерогенним простором розуміється комбінація безперервнозначних, дискретнозначних, булевих та номінальних змінних і показано, що спеціальні метрики близькості об'єктів дозволяють працювати алгоритмам кластеризації, kNN-класифікаторам більш точно та адекватно, ніж у порівнянні з випадком , коли в таких просторах для обчислення близькості між об'єктами використовується евклідова відстань). Для цього потрібно доопрацювати алгоритми навчання картки, алгоритми проектування даних на картку та розмальовки картки. Можливо, це вже зроблено - не надто глибоко вивчав весь спектр наукових праць з карт Кохонена, т.к. не можна вивчити близько тисячі робіт на рік (так-так, Т.Кохонен із помічниками раз на п'ять років випускають бібліографію робіт у цій галузі – і за кожну п'ятирічку набирається близько 5000 наукових статей). Це допоможе наступати на меншу кількість граблів безвідповідальним користувачам, які застосовують карти Кохонена там, де їх застосовувати некоректно (за межами безперервнозначних ознак), підвищить стійкість рішення до викидів у даних та різних законів розподілу значень ознак.

Здається, навіть всі теоретичні доопрацювання і практичні прийоми не знімуть головної проблеми - можливості породження неадекватних гіпотез про властивості даних за розмальовками карти, і можливості не відобразити у вигляді розмальовок (і тому не побачити) наявних залежностей і властивостей. Тому карти Кохонена будуть програвати іншим, не нейромережевим (!) методам візуалізації багатовимірних даних, наприклад, parallel coordinates, які візуалізують реальні значення даних, не вводячи і не використовуючи жодної моделі, яка описує або трансформує дані. Тому відразу знімаються питання вибору виду моделі (розмірів та топології карти) таналаштувань алгоритму побудови моделі, перевірки адекватності побудованої моделі. Та й якщо захочеться подивитися, як побачені для всієї вибірки основні тенденції у властивостях даних змінюються при різних значеннях однієї дискретнозначної ознаки (або при різних комбінаціях значень двох і більше дискретнозначних ознак), то набір картинок-візуалізацій буде побудований миттєво, а при використанні карт Кохонена доведеться навчити карту для кожної такої підвиборки та вирішувати всі перелічені проблеми (побудова мережі-карти та доказ її адекватності) багаторазово. Там, де карти Кохонена добре працюють, зазвичай прийнятні результати виходять і з використанням класичної візуалізації даних на площині перших двох основних компонентів.

Тому перспективи карт Кохонена є досить туманними. Мінусів більше, ніж плюсів, за наявності альтернативних методів візуалізації даних, які багато мінусів не мають.

Література

Pal N.R., Bezdek J.C.Надзвичайно-організаційні feature maps for improved visual displays/ Proc. Int. Joint Conf. на Neural Networks (IJCNN'1993), Nagoya, Japan, 1993. Vol.3. - pp.2441-2447.
Lampinen J., Kostiainen T.Self-організаційна map в data analysis - помітки на overfitting and overinterpretation/ Proc. European Symposium on Artificial Neural Networks (ESANN'2000), Bruges, Belgium, 2000. - pp.239-244.
Wilson D.R., Martinez T.R.Improved heterogeneous distance functions/ Journal of Artificial Intelligence Research, 1997. Vol.6. - pp.1-34.

нейронні мережі, методи аналізу даних: від досліджень до розробок та впроваджень