Хибна кореляція

Коли величина коефіцієнта кореляції визначається в першу чергу способом підбору варіант у вибірку, а не реальною залежністю між ознаками, що вивчаються, то говорять про «хибну кореляцію».

Величина коефіцієнта кореляції залежить від витягнутості еліпса розсіювання: що більше довжина головної осі еліпса відрізняється від перерізу, то вище значення коефіцієнта. Випадкові одиничні, тим паче парні значення можуть різко підвищити показник сили зв'язку ознак. Особливо чутливий коефіцієнт кореляції до нулів, які можуть потрапити у вихідну матрицю під час перенесення даних між електронними таблицями.

Явище помилкової кореляції виникає у тому разі, коли досліджувані показники мають у сумі постійне значення, наприклад 100%. Розглянемо співвідношення чисельності гризунів та комахоїдних у різних біотопах (табл. 14). Представники першого і другого загонів частіше зустрічаються в корінних хвойних лісах, ніж в антропогенних стаціях, тим більше в агроценозах. Синхронність їхньої реакції на трансформацію ландшафтів виражається високим коефіцієнтом кореляції їх чисельностіr= 0.85.

Якщо ж оцінити залежність між часткою гризунів (Рг= Nг/Nо) і часткою бурозубок (Рб= Nб/Nо) у цих стаціях (між індексами домінування), вона становитимеr= −1.00. Справа в тому, що ці показники розраховуються щодо загальної суми, тому частка полевок становить різницю між 1 і часткою бурозубок:Рг=1б. Фактично, маємо рівняння суворо функціональної зворотної регресії (у =11∙х), якому відповідає, природно, максимальний негативний коефіцієнт кореляції. Вимога незмінності суми двох показників (1 або 100%), прийнята для обчислення відсотків,виявляється причиною постійної зворотної пропорції між цими показниками. Така кореляція має бути названа хибною, тому що характеризує не біологічну залежність показників, а спосіб їхнього розрахунку. Коли загальну суму утворюють три і більше ознак, хибна кореляція відрізнятиметься відr=−1, але від цього не втратить своєї природи математичного артефакту.

При обробці масивів даних з великою кількістю похідних ознак (індекси домінування видів у співтоваристві, морфофізіологічні індикатори) неважко пропустити ще один вид хибної кореляції, яка спостерігається між двома ознаками, віднесеними до загальної для них третьої змінної. По необачності коефіцієнти зв'язку між індексами можна сприйняти як оцінка залежності між ознаками. Такі кореляції, несвідомо наведені третім чинником, є хибними.

Безумовно, змістовну інтерпретацію можна дати як кореляції ознак, так і кореляції індексів, але вони кардинально відрізнятимуться. Наприклад, серед кількох видів куньих (від ласки до борсука) коефіцієнт кореляції між довжиною тонкого та товстого відділів кишечника (r= 0.96) відображає прості морфологічні пропорції: у великої тварини кишечник довший, ніж у дрібного. Однак кореляція між індексами цих органів (розмірів, віднесених до довжини тіла особини) характеризує вже відмінності дієти різних видів (r= 0.78): кишечник відносно менший у облігатних хижаків, ніж у поліфагів. Однак у великому масиві похідних значень такі відносини між індексами можуть сприйматися як залежності між ознаками, що неминуче призведе до хибних висновків.

Щоб уникнути такої двозначності, до обробки бажано залучати тільки попередньо вивіреніреальні вихідні показники, а чи не пов'язані методом розрахунку частки, відсотки чи індекси.