Новий тип візуалізації для дослідження кореляцій
У цій статті ми надамо вам сонячну діаграму кореляцій (solar correlation map) і продемонструємо простий спосіб її створення.

Сонячна діаграма кореляції.
Стародавнє прокляття переслідує data scientist'ів. Що більше змінних ми використовуємо в нашій моделі, то більше даних нам потрібно. При цьому залежність є експонентною. Однак, зосередивши нашу увагу на найважливіших змінних, ми можемо уникнути як недонавчання, так і необхідності збирати велику кількість спостережень. Щоб визначити, які незалежні змінні є найбільш значущими, необхідно оцінити їхній взаємозв'язок із залежною змінною. У цьому нам допомагає кореляція. Сильна кореляція говорить про те, що зміна незалежної змінної відповідає сумісній зміні залежної змінної. Замість того, щоб використовувати всі доступні незалежні змінні в нашій моделі, ми хочемо відібрати лише ті, які мають сильну кореляцію із залежною змінною.
На цьому шляху нас чатує непроста ситуація. Справа в тому, що іноді незалежні змінні сильно корелюють між собою. Як приклад припустимо, що хочемо передбачити рівень освіти батьків у ній. На основі даних ми з'ясували, що спостерігається сильна кореляція цього показника із членством у заміському клубі, кількістю автомобілів та вартістю відпочинку. Усі ці показники безпосередньо залежить від рівня достатку у ній. Таким чином, справжня кореляція полягає в тому, що батьки з вищим рівнем освіти зазвичай мають вищий дохід. Отже, щоб передбачити рівень освіти батьків, ми можемо використовувати дохід сім'ї, або набір описаних вище змінних. У разі має місце «інтеркореляція», тобтокореляція між незалежними змінними.
Використання великої кількості незалежних змінних там, де достатньо однієї, накликає на нас прокляття розмірності (curse of dimensionality) і змушує збирати і обробляти великі обсяги даних. При цьому іноді вдається отримати більш ефективне рішення, обравши всього одного представника групи інтеркорелюючих змінних. Далі ми розглянемо процес аналізу кореляцій та інтеркореляцій за допомогою сонячних діаграм, які є спеціально розробленим новим типом візуалізації. Ви також дізнаєтесь, як створити власну сонячну діаграму.
Застосування сонячної діаграми кореляцій під час аналізу цін на нерухомість
Аналізуючи дані про ціни на нерухомість, ми можемо застосувати такі інструменти, як матриця підступів або матриця кореляцій. Ці інструменти дуже ефективні, але водночас складні сприйняття. Тут на допомогу приходить сонячна діаграма, що дозволяє красиво і компактно представляти ці матриці, що значно полегшує дослідження кореляцій.
Сонячна діаграма дозволяє візуалізувати такі аспекти:
- Кореляції між залежною та кожною незалежною змінною.
- Інтеркореляція між незалежними змінними.
Отже, розглянемо сонячну діаграму, створену для одного з класичних наборів даних. У 1990-х роках дослідники університету Карнегі – Меллон зібрали дані про ціни на нерухомість у Бостоні. Цей набір даних доступний у репозиторії Каліфорнійського університету в Ірвайні. Дані містять кілька незалежних змінних, що характеризують будинки, а залежною змінною є ціна (MEDV).
Спочатку обчислимо матрицю кореляцій:

Щоб знайтикореляцію між залежною змінною (MEDV) і даною незалежною змінною (наприклад, TAX), просто рухаємося рядком MEDV до перетину з стовпцем TAX, що шукається. Аналізуючи інтеркореляції, зазвичай хочемо знайти все осередки, абсолютні значення яких перевищують, наприклад, 0.8. При роботі з великими наборами даних велика кількість рядків та стовпців матриці кореляцій суттєво ускладнює це завдання. На щастя, сонячна діаграма легко вирішує проблему завдяки ефективному компактному представленню матриці кореляцій:

Залежна змінна MEDV (ціна будинку в Бостоні) представлена у вигляді Сонця у центрі Сонячної системи. Кола, розташовані навколо Сонця, є орбітами планет. Планети – це незалежні змінні, які супутники (місяця) – це інші незалежні змінні, з якими вони интеркоррелируют. Чим ближче орбіта до Сонця, тим сильніша кореляція. Зокрема, найближчою до Сонця планетою є змінна LSTAT (відсоток домогосподарств з низьким доходом), далі слідує змінна RM (кількість кімнат), а за нею – змінна PTRATIO (співвідношення кількості учнів та вчителів). Безумовно, немає нічого дивного в тому, що ці фактори істотно впливають на ціну будинку. Саме тому ми і вибрали цей приклад, щоб за допомогою простого аналізу змінних на основі здорового глузду можна було переконатись у коректності сонячної діаграми.
Орбіта, де розташовуватиметься дана незалежна змінна, визначається абсолютним значенням коефіцієнта кореляції Пірсона. У першій орбіті розташовуються змінні з абсолютним значенням коефіцієнта кореляції в інтервалі 0.9-1.0, другий орбіті – 0.8-0.9 тощо. Крім того, інформативними ознаками можуть бути колір і розмір. Сонце представленевеликим колом, планети – колами середнього розміру, супутники – колами малого розміру.
Аналіз інтеркореляцій
Ймовірно, ви звернули увагу на те, що в нашій Сонячній системі не так багато супутників. Річ у тім, що з створенні діаграми за умовчанням ми вважаємо незалежні змінні інтеркорелюючими, якщо коефіцієнт кореляції Пірсона перевищує 0.8. У цьому, у випадку, кореляція вважається сильної, якщо коефіцієнт Пірсона перевищує 0.5. Таким чином, використане при створенні діаграми значення 0.8 є досить обережним, але при необхідності цей поріг завжди можна налаштувати. Якщо в наших даних є кілька інтеркорелюючих один з одним змінних, тоді змінна, що має найбільшу кореляцію із залежною змінною, стає планетою, а решта – її супутниками. Така логіка гарантує, що планети уособлюють собою незалежні змінні, які найкраще пояснюють залежну змінну.
У нашому прикладі є лише дві незалежні змінні з сильною інтеркореляцією. Проте така ситуація спостерігається далеко ще не всіх наборів даних. В області великих даних, як правило, ми маємо набагато більше незалежних змінних, відповідно, на сонячній діаграмі може з'явитися набагато більше супутників. Чим більша кількість незалежних змінних, тим більше виявляється ефективність сонячної діаграми.
Тепер давайте розглянемо докладніше інтеркореляцію в нашому прикладі. На 6-й орбіті, позначеної зеленим кольором, є планета з одним супутником. Ця планета представляє змінну TAX (податок на нерухомість). Супутником цієї планети є змінна RAD (індекс доступності автомагістралі). Оскільки ставка податку відрізняється для житлової такомерційної нерухомості, змінна TAX може бути індикатором, що дозволяє розділити території, де розміщуються ці типи нерухомості. Компаніям зазвичай необхідний швидкий доступ до автомагістралі, тоді як приватні домовласники навпаки прагнуть жити подалі від вихлопних газів та шуму жвавих доріг. Таким чином, тенденція концентрації житлової нерухомості в одних районах, а комерційної – в інших може бути причиною інтеркореляції цих змінних. Якщо це припущення справедливо, досить включити в модель тільки одну з них.
Тепер треба сказати кілька слів застереження. Аналіз даних не є механічним чи детермінованим процесом. Наприклад, навіть заможна сім'я може утримуватися від покупки спортивного автомобіля, турбуючись про вплив на довкілля. Таким чином, прогнозуючи достаток сім'ї, ми можемо спостерігати змінну, визначальну наявність чи відсутність спортивного автомобіля на досить віддаленій орбіті. На перший погляд, таке віддалене становище цієї змінної свідчить про те, що вона не є добрим індикатором добробуту. Проте проста логіка нагадує протилежне. Отже, виняток цієї змінної з моделі буде, швидше за все, неправильним рішенням, оскільки модель могла б отримати з неї користь. Кореляція – це корисний інструмент, при цьому завжди необхідно перевіряти свої висновки, спираючись на здоровий глузд, різні статистичні тести та байєсівський аналіз.
Використовуючи сонячні діаграми у дослідницькому аналізі даних (exploratory data analysis, EDA) та (з обережністю) при моделюванні, ми отримуємо гарний інструмент для візуальної інтерпретації кореляцій. Розуміння кореляцій дозволяє визначити пріоритети при виборіЗмінні для створення моделі: планети, розташовані на найближчих до Сонця орбітах, є перспективними кандидатами, далі слід звернути увагу на супутники, а потім можна розглядати більш віддалені планети.
Позитивна та негативна кореляція
Отже, ми вже знаємо, як сонячна діаграма становить величину кореляції. Однак для нас також важливим є знак кореляції. Позитивна кореляція означає, що збільшення однієї змінної відповідає збільшенню іншої. Давайте розглянемо змінну RM, яка позначає кількість кімнат. Чим більше кімнат у будинку, тим вища його ціна. Це очевидно, оскільки обидві змінні характеризують розмір будинку. Будинок з 10 кімнатами, найімовірніше, буде дорожчим за будинок з 2 кімнатами. У цьому полягає суть позитивної кореляції. На діаграмі ми можемо легко визначити знак кореляції за кольором мітки біля кожної змінної. Зокрема, бачимо, що ім'я змінної RM має зелений колір, отже, кореляція між RM і MEDV позитивна.
Негативна кореляція означає, що збільшення однієї змінної відповідає зменшенню іншої. Наприклад, чим більша кількість злочинів на душу населення, тим менша ціна будинку. Відповідно, колір мітки CRIM червоний.
Як бачите, лише один погляд на сонячну діаграму дозволяє нам швидко оцінити величину і знак кореляцій, а також отримати повне уявлення про інтеркореляції.
Створюємо власну сонячну діаграму
Ми можемо легко створити сонячну діаграму для власного набору даних. Насамперед необхідно встановити Python-пакет за допомогою наступної команди:
Потім як приклад завантажуємо файл jedi.csv з репозиторію на GitHub. Цей файл є стандартним файлом CSV і містить такі дані:
Набір даних містить наступні змінні, що характеризують джедая:
- JEDI. Ступінь близькості до світлої сторони.
- GRAMMAR. Якість мови.
- GREENNESS. Рівень зеленого відтінку шкіри.
- IMPLANTS. Кількість імплантатів.
- ELEGEN. Енергія.
- MIDI-CHLORIANS. Кількість мідіхлоріанів у крові.
- FRIENDS. Кількість друзів.
Зверніть увагу, кількість мідіхлоріану однакова для всіх записів.
Тепер створимо сонячну діаграму, виконавши наступну команду в каталозі, куди завантажили файл jedi.csv:
Перед нами відкриється вікно із готовою сонячною діаграмою:

Існує безліч можливостей удосконалення сонячної діаграми кореляцій. У цій статті ми презентували новий інструмент і будемо раді почути ваші ідеї щодо його покращення.
Три кроки до нового типу візуалізації
Отже, ви вже знаєте, як створити та інтерпретувати сонячну діаграму кореляцій. Тепер розглянемо загальний процес створення нового типу візуалізації. Спочатку перед нами стояло завдання відбору незалежних змінних, які мають найтісніший взаємозв'язок із залежною змінною. Для вирішення цього завдання ми застосували матрицю кореляцій. Оскільки матриця кореляцій дуже зручна для сприйняття, ми виконали її візуалізацію. Як візуальна метафора була обрана Сонячна система, оскільки ця концепція знайома кожному. В результаті завдяки ефективному візуальному уявленню достатньо одного погляду, щоб визначити найбільш значущі змінні та оцінити інтеркореляцію.
Таким чином, можна виділити три етапи створення нового типу візуалізації:
- Постановка задачі аналізу даних.
- Вибір аналітичного інструменту, що дозволяєвирішити цю задачу.
- Вибір візуальної метафори, що забезпечує ефективне уявлення результатів.
Протягом століть сказатели славилися сміливими ідеями та винахідливістю. Аналіз даних має багато спільного з розповіддю. Слідуючи стопами древніх оповідачів, data scientist може застосовувати нові засоби виразності, щоб передати читачеві голос даних.
У контексті дослідницького аналізу інструменти візуалізації відіграють дуже важливу роль, дозволяючи доступно пояснювати результати та переконувати. У цій статті ми надали вам сонячну діаграму кореляцій, а також розглянули загальну схему процесу створення нових типів візуалізації, що дозволяють вирішувати реальні аналітичні завдання. Аналізуючи дані, не бійтеся застосовувати нові візуальні концепції, які ніхто не бачив. Дайте свободу своїй уяві. Це дозволить захопити читача та розширить арсенал візуальних метафор ваших колег.