Коефіцієнт кореляції та малі вибірки

Статті »
2015 »
Коефіцієнт кореляції та малі вибірки

Значення кореляції при малих вибірках

В експериментально-орієнтованих наукових дослідженнях нерідко виникають ситуації, коли потрібно провести статистичний аналіз за умов малих вибірок. При цьому збільшення вибірки можливо просто неможливо як через принципові обмеження, так і внаслідок надзвичайної труднощі виконання вимірювальних експериментів.

Предметом обговорення цієї нотатки буде вивчення важливості кореляційних залежностей при мінімальних вибірках. У тих статистичної завдання наявність принципових обмежень можна інтерпретувати так. Наприклад, є набір вимірювань висоти та ширини об'єктів видів A, B та C. Ці вимірювання представлені відповідно парами значень \((h_a, w_a), (h_b, w_b), (h_c, w_c) \); якщо завдання дослідження полягає у встановленні факту залежності ширини від довжини для сукупності об'єктів даних трьох видів, то розміри вибірки має місце важливе (неусувне) обмеження — у разі вимірів може бути більше трьох (оскільки інших видів, крім зазначених немає). Звичайно, можна заперечити, що кожен вид може бути представлений не одним виміром, і тоді для вирішення зазначеної задачі достатньо буде об'єднати всі виміри та порахувати коефіцієнт кореляції для повних наборів вимірів. Однак, цілком імовірно, що вимірювання щодо видів виконані різними дослідниками в різний час, і за літературними джерелами вдається відновити лише загальні риси мінливості (розподілу) вимірювань, а саме, можливо, що виміри для виду А належатьдвовимірної інтервальної області \((h_a, w_a)\in[h_1, h_2]\times[w_1, w_2] \) c довірчою ймовірністю 0.95. Аналогічна інформація, але з іншими інтервалами зміни має місце щодо видів B та C. Як вчинити в цьому випадку? Виконати розрахунок коефіцієнта кореляції для трьох вимірювань, що представляють, наприклад, центроїди областей можливої мінливості вимірів. Але тоді в розрахунках братимуть участь лише 3 значення, і традиційна процедура оцінки значущості коефіцієнта кореляції, швидше за все (через таку малу вибірку), покаже факт незначущості залежності. Чи можна довіряти такому результату, яким чином поліпшити його, адже збільшити вибірку, взагалі кажучи, неможливо?

Можливі такі варіанти аналізу кореляції у разі:

знаючи області зміни вимірів розширити обсяги вибірки за допомогою процедури статистичних випробувань. Іншими словами сформувати штучну вибірку вимірювань, отриману, наприклад, як поєднання вибірок, будь-якого, досить великого обсягу, з рівномірних розподілів усередині відповідних областей (кольорові квадрати на схемі). Слід, однак, пам'ятати, що висновки в цьому випадку матимуть рівень достовірності \(0.95^\), якщо вихідні області можливих варіацій вимірювань за видами дано з 0.95 довірчою ймовірністю (\(N\) - розмір імітованої вибірки для кожної області). Щоб мати 0.95 довірчу ймовірність на виході за такою схемою імітації вимірювань необхідно розглядати області варіації для кожного з видів з довірчим рівнем \(0.95^\), що дещо більше одержуваної на виході довірчої ймовірності.
Інший підхід полягає у обчисленні мінімально можливого (за модулем - тому що негативні значення також вказують нафакт корелювання величин) коефіцієнта кореляції для трьох пар вимірювань, коли кожна з пар належить до відповідної області змін (на схемі — кольорові квадрати). Таку мінімізацію можна виконати чисельно і крайні точки областей — перші кандидати, які призводять до мінімального значення кореляції. Як і в попередньому випадку, для отримання довірчої ймовірності (або 5% рівня значущості) на виході необхідно розглядати області варіації для кожного з видів вимірювань при (0.95) рівні.

Чому ж слід використовувати традиційну схему оцінки значимості коефіцієнта кореляції у разі (тобто. при обсязі вибірки, рівному 3). В принципі можна, але це майже напевно призведе до того, що набуте значення кореляції буде не значуще. Справа тут у тому, що традиційна схема аналізу передбачає, що виміри отримані з деякого нормального (у даному випадку двовимірного) розподілу, а таке припущення може бути дуже грубим, особливо якщо області не перекриваються і виміри сконцентровані біля своїх середніх значень.

Таким чином, класичний тест може не враховувати специфіку розподілу даних, яка може бути вирішальною для ухвалення рішення про значущість.