Кореляція, коваріація та девіація (частина 3), SavePearlHarbor

Ще одна копія хабора

Головне меню

Навігація за записами

Кореляція, коваріація та девіація (частина 3)

У першій частині ми розповіли про сутність перетворення девіації та його застосування до матриці квадратів відстаней. У другій трохи напустили туман на спектри простих геометричних наборів.

У цій статті ми постараємося розкрити зміст перетворення девіації, для чого звернемося до прикладних завдань, пов'язаних із обробкою та аналізом даних. Покажемо, як пов'язано перетворення девіації матриці відстаней зі статистикою - з дисперсією, кореляцією та підступністю.

7. Центрування та нормування одновимірних координат

Розминку проведемо на простому та всім зрозумілому — центруванні та нормуванні даних. Нехай у нас є ряд чисел. Тоді операція центрування зводиться до знаходження середнього (центроїду набору)

та побудови нового набору як різниці між вихідними числами та їх центроїдом (середнім):

Центрування - це перший крок до власної системи координат (ССК) вихідного набору, оскільки сума центрованих координат дорівнює 0. Другим кроком є нормування суми квадратів центрованих координат до 1. Для виконання цієї операції нам потрібно обчислити цю суму (точніше середнє):

Тепер ми можемо побудувати СБК вихідного набору як сукупність власного числаSі нормованих чисел (координат):

Квадрати відстаней між точками вихідного набору визначаються як різницю квадратів компонент власного вектора, помножені на власне число. Звернемо увагу на те, що власне числоSдорівнювало дисперсії вихідного набору (7.3).

Отже, длябудь-якого набору чиселможна визначити власну системукоординат, тобто виділити значення власного числа (вона дисперсія) і розрахувати координати власного вектора шляхом центрування і нормування вихідних чисел. Круто.

Вправа для тих, хто любить "мацати руками". Побудувати СБК для набору .

8. Центрування таортонормуваннябагатовимірних координат

Що якщо замість набору чисел нам заданий набір векторів — пар, трійок та інших розмірів чисел. Тобто точка (вузол) задається не однією координатою, а кількома. Як у цьому випадку збудувати СБК?

Так, можна побудувати матрицю квадратів відстаней, потім визначити матрицю девіації та розрахувати для неї спектр. Але про це ми дізналися нещодавно. Зазвичай надходили (і надходять) інакше.

Введемо позначення компонент набору. Нам задані точки (вузли, змінні, вектори, кортежі) та кожна точка характеризується числовими компонентами . Звертаємо увагу, що другий індекс - це номер компоненти (стовпці матриці), а перший індекс - номер точки (вузла) набору (рядки матриці).

Що ми робимо далі? Правильно – центруємо компоненти. Тобто для кожного стовпця (компоненти) знаходимо центроїд (середнє) та віднімаємо його від значення компоненти:

Ми отримали матрицю центрованих даних (МЦД). Наступним кроком нам нібито треба обчислити дисперсію для кожної компоненти та їх нормувати. Але ми цього не робитимемо. Тому що хоч таким чином ми дійсно отримаємо нормовані вектори, але нам потрібно, щоб ці вектори були незалежними, тобтоортонормованими. Операція нормування не повертає вектора (а лише змінює їхню довжину), а нам потрібно розгорнути вектори перпендикулярно один одному. Як це зробити?

Правильна (але поки марна) відповідь — розрахувати власні вектори та числа(Спектр). Некорисний тому, що ми не збудували матрицю, для якої можна вважати спектр. Наша матриця центрованих даних (МЦД) не є квадратною – для неї власні числа не розрахуєш. Відповідно нам треба на основі МЦД побудувати якусь квадратну матрицю. Це можна зробити множенням МЦД на себе (звести в квадрат).

Але тут - увага! Неквадратну матрицю можна звести до квадрата двома способами — множенням вихідної на транспоновану. І навпаки — множенням транспонованої на вихідну. Розмірність і значення двох отриманих матриць — різний.

Помножуючи МЦД на транспоновану, ми отримуємо матрицю кореляції:

З цього визначення (є та інші) випливає, що елементи матриці кореляції є скалярними творами центрованих векторів. Відповідно, елементи головної діагоналі відбивають квадрат довжини даних векторів. Значення матриці - не нормовані (зазвичай їх нормують, але для наших цілей цього не потрібно). Розмір матриці кореляції збігається з кількістю вихідних точок (векторів).

Тепер переставимо перемножувані в (8.1) матриці місцями і отримаємоматрицю коваріації(знову ж таки опускаємо множник1/(1-n), яким зазвичай нормують значення коваріації):

Тут перемножуються компоненти (а чи не вектори). Відповідно, розмірність матриці коваріації дорівнює кількості вихідних компонентів. Для пар чисел матриця коваріації має розмірність 2×2, для трійок – 3×3 тощо.

Чому важлива розмірність матриць кореляції та коваріації? Фішка в тому, що оскільки матриці кореляції та коваріації походять з твору одного і того ж вектора, то вони мають один і той же набір власних чисел, один і той же ранг (кількість незалежних розмірностей) матриці. Як правило,кількість векторів (крапок) набагато перевищує кількість компонентів. Тому про ранг матриць судять за розмірністю матриці коваріації.

Діагональні елементи коваріації відбивають дисперсію компонентів. Як ми бачили вище, дисперсія та власні числа тісно пов'язані. Тому можна сказати, що в першому наближенні власні числа матриці коваріації (а отже, і кореляції) дорівнюють діагональним елементам (а якщо міжкомпонентна дисперсія відсутня, то дорівнюють будь-якому наближенню).

Якщо стоїть завдання знайти просто спектр матриць (власні числа), то зручніше її вирішувати для матриці коваріації, оскільки, як правило, їхня розмірність невелика. Але якщо нам необхідно знайти ще й власні вектори (визначити власну систему координат) для вихідного набору, необхідно працювати з матрицею кореляції, оскільки саме вона відображає перемноження векторів. Можливо, що оптимальним алгоритмом є поєднання діагоналізацій двох матриць — спочатку знайшли власні числа для коваріації та потім на їх основі визначили власні вектори матриці кореляції.

Ну і якщо вже ми так далеко зайшли, то згадаємо, що горезвісний спосіб основних компонентів якраз і полягає в розрахунку діапазону матриці коваріації / кореляції для заданого набору векторних даних. Знайдені компоненти спектра розташовуються вздовж основних осей еліпсоїда даних. З нашого розгляду це випливає тому, що головні осі - це ті осі, дисперсія (розкид) даних по яких максимальний, а значить, і максимально значення спектра.

Щоправда, можуть бути і негативні дисперсії, і тоді аналогія з еліпсоїдом (псевдоеліпсоїдом?) вже не очевидна.

9. Матриця девіації відстаней – це матриця кореляції векторів

Все це чудово, але до чого тут перетворення девіації?

Розглянемо ситуацію, коли відомий не набір чисел (векторів), що характеризують деякі точки (вузли), а набір відстаней між точками (причому між усіма). Чи достатньо цієї інформації визначення ССК (власної системи координат) набору?

Відповідь ми дали в першій частині – так, цілком. Тут же ми покажемо, що побудована за формулою (1.3′) матриця девіації квадратів відстаней та визначена нами вище матриця кореляції центрованих векторів (8.1) — це одна і та ж матриця .

Як таке вийшло? Самі шоковані. Щоб переконатися, треба підставити вираз для елемента матриці квадратів відстаней

у формулу перетворення девіації:

Зазначимо, що середнє значення матриці квадратів відстаней відбиває дисперсію вихідного набору (за умови, що відстані в наборі - це сума квадратів компонент):

Підставляючи (9.1) і (9.3) (9.2), після нескладних скорочень приходимо до виразу для матриці кореляції (8.1):

Отже, ми переконалися, що, застосовуючи операцію девіації до матриці евклідових відстаней, ми отримуємо відому матрицю кореляції. Ранг матриці кореляції збігається з рангом матриці коваріації (кількістю компонентів евклідового простору). Саме ця обставина дозволяє нам будувати спектр та власну систему координат для вихідних точок на основі матриці відстаней.

Для довільної матриці відстаней (необов'язково евклідової) потенційний ранг (кількість вимірів) на одиницю менше кількості вихідних векторів. Розрахунок спектра (власної системи координат) дозволяє визначити основні (головні) компоненти, що впливають відстані між точками (векторами).

Матриця відстаней між містами, наприклад, свідомо неевклідова, — жодних компонентів (характеристик міст)поставлено. Перетворення девіації проте дозволяє визначити спектр такої матриці та власні координати міст.

Але вже не у цій статті. Тут поки що все, дякую за приділений час.