Лінійна та криволінійна кореляції

Основний коефіцієнт кореляціїгПірсона є мірою прямолінійного зв'язку між змінними: його значення досягають максимуму, коли точки па графіку двовимірного розсіювання лежать на одній прямій лінії. У реальному житті відносини між змінними часто виявляються не тільки імовірнісними, а й непрямолинійними: монотонними чи немонотонними. Якщо зв'язок нелінійний, але монотонний, то замість Пірсона слід використовувати рангові кореляції Спірмепа або Кеїдалла.

Нерідко зв'язок між двома змінними є не лише нелінійним, а й немонотонним. Як приклад розглянемо такі два фактори, як нервове збудження перед іспитом та успішність його складання. Дослідження показують, що студенти, які мають помірне нервове збудження, мають найкращі результати на іспитах, тоді як дуже спокійні або дуже нервові студенти складають іспити значно гірше. Якщо по осі абсцис відкласти ступінь нервового збудження, а по осі ординат - результати складання іспитів, то графік залежності між ними набуде вигляду, близького до перевернутої букви U. При цьому будь-який коефіцієнт кореляції, обчислений для цих велич, виявиться дуже низьким. Це тим, що з немонотонних відносин потрібні інші методи оцінки кореляції. Частково ми торкнемося цих методів у розділах 15 і 16, присвячених видам регресійного аналізу.

Перед тим, як оцінювати кореляцію двох змінних, рекомендується побудувати графік залежності між ними — графік двовимірного розсіювання. Якщо графік демонструє монотонність зв'язку, то обчислення кореляції можна використовувати команди підменю Correlate (Кореляція).

Рангові кореляції

Як уже зазначалося, необхідність застосування рангових кореляцій виникає у двох випадках:коли розподіл хоча б однієї з двох змінних не відповідає нормальному і коли зв'язок між змінними є нелінійним (але монотонним). У цих випадках замість кореляціїгПірсона можна

Вибрати рангові кореляції:гСпірмепа чи т (читається «тау») Кендалла. рангові вони тому, що програма попередньо ранжирує змінні, між якими вони обчислюються.

КореляціюгСпірмепа програма SPSS обчислює наступним чином: спочатку змінні переводяться в ранги, а потім до рангів застосовується формула Пірсона. Таким чином,гСпірмепа інтерпретується але аналогії згПірсона. Інакше справа з кореляцією т Кеїдалла, яка має імовірнісну природу.

Розглянемо принцип обчислення т Кендала на прикладі. Припустимо, оцінюється зв'язок між зростанням і вагою групи людей, попередньо ранжированных але цим змінним. Тоді при порівнянні будь-яких двох осіб із цієї групи можливі дві ситуації: односпрямована зміна змінних («збіг»), коли і зростання, і вага одного більше, ніж іншого, і різноспрямована зміна («інверсія»), коли зростання у другого більше, а вага менша, ніж у першого. Перебравши всі пари піддослідних, можна оточити можливість збігів(Р)і можливість інверсій (Q). Кореляція Кеідалла - це різниця ймовірностей «збігів» та «інверсій»: т =Р -Q. За значенням кореляції Кепдалла можна завжди обчислити ймовірність «збігів»(Р= (1 + х )/2) та «інверсій» (Q = (1 - х)/2). Наприклад, якщо кореляція між зростанням і вагою т = 0,5, то ймовірність «збігів» (що більше зростання, тим більша вага)Р= 0,75, а ймовірність «інверсій» (чим більше зростання, тим менша вага)Q= 0,25. Таким чином, важливою перевагою кореляції т Кеїдалає її чітка імовірнісна інтерпретація.

Значність

Як і більшість статистичних процедур, команди підменю Correlate (Кореляція) поряд з описовими статистиками (кореляціями в даному випадку) обчислюють їхній рівень значущості. Нагадаємо, що рівень значущості є мірою статистичної достовірності результату обчислень, у даному випадку — кореляції, і є підставою для інтерпретації. Якщо дослідження показало, що рівень значущості кореляції не перевищує 0,05, це означає, що з ймовірністю 5 % і менше кореляція є випадковою. Зазвичай це є підставою висновку про статистичної достовірності кореляції. Інакше зв'язок визнається статистично недостовірним і не підлягає змістовній інтерпретації.

SPSS дозволяє визначати два тести значущості: односторонній (one-tailed) та двосторонній (two-tailed). Зазвичай використовується двосторонній тест значимості. Але якщо ви заздалегідь знаєте напрямок кореляції (позитивний чи негативний) і вас цікавить лише один напрямок, то можна використовувати односторонній тест значущості. Однак така ситуація зустрічається рідко, а якщо й зустрічається, то правомірність односторонньої перевірки важко піддається обґрунтуванню.

Приватна кореляція

Поняттяприватної кореляції(partial correlation) пов'язані з ковариацией, розмова про яку піде главі 14. Тут ми згадуємо приватну кореляцію лише як із команд підменю Correlate (Кореляція). Суть приватної кореляції ось у чому. Якщо дві змінні корелюють, завжди можна припустити, що це кореляція обумовлена впливом третьої змінної, як загальної причини спільної мінливості перших двох змінних. Для перевірки цьогоприпущення достатньо виключити вплив цієї третьої змінної та обчислити кореляцію двох змінних без урахування впливу третьої змінної (при фіксованих її значеннях). Кореляція, обчислена в такий спосіб, і називається приватною. Наприклад, при дослідженні зв'язку між швидкістю читання та зрілістю моральних суджень у дітей різного віку напевно буде виявлено кореляцію цих двох змінних. Відповідь питанням, пов'язані вони безпосередньо, чи зв'язок зумовлена віком, дозволяє дати приватна кореляція. Якщо при фіксованих значеннях віку приватна кореляція швидкості читання та зрілості моральних суджень наближається до нуля, можна зробити висновок, що зв'язок між цими змінними обумовлена віком.

У меню Analyze (Аналіз) виберіть пункт Correlate ► Bivariate (Кореляція ► Двовимірна). На екрані з'явиться діалогове вікно Bivariate Correlations (Двовимірні кореляції)

У групі Correlation Coefficients (Коефіцієнти кореляції) за замовчуванням встановлено прапорець Pearson (Пірсон). Якщо потрібно обчислити рангові кореляції, слід встановити прапорець Spearman (Спірмен) і (або) Kendall's tau-b (Тау-бі Кендалла). Ви можете встановити всі три прапорці, щоб мати можливість порівнювати три коефіцієнти кореляції для різних розподілів даних.

У групі Test of Significance (Тест значимості) за замовчуванням встановлено перемикач Two-tailed (Двосторонній). Якщо ви заздалегідь впевнені у напрямі (знаку) кореляції, можете встановити перемикач One-tailed (Односторонній).

Прапорець Flag significant correlations (Зазначити значні кореляції) за замовчуванням встановлено. Це означає, що кореляції, обчислені з рівнем значущості від 0,01 до 0,05, будуть позначені однією зірочкою (*), а від 0 до 0,01 – двома зірочками(**). Незалежно від значущості висновку включаються коефіцієнти кореляції та р-рівні, обчислені з точністю до 3 знаків після коми, а також кількість об'єктів, що брали участь у процедурі.

Клавіша Options (Параметри) дозволяє встановити додаткові параметри кореляції. При натисканні на цій кнопці відкривається діалогове вікно Bivariate Correlations: Options (Двовимірні кореляції: Параметри), представлене на мал. 9.2.

У групі Statistics (Статистики) є два прапорці, що управляють відображенням статистичних велич: Means and standard deviations (Середні значення та стандартні відхилення) та Cross-product deviations and covariances (Твори відхилень та коваріації). Група Missing Values (Пропущені значення) із двох перемикачів дозволяє вибрати спосіб виключення об'єктів, що містять пропущені значення. Установка перемикача Exclude cases pairwise (Попарне вилучення об'єктів) означає, що якщо обчисленні кореляції між нарою змінних якогось об'єкта виявиться відсутнє значення, то об'єкт буде виключено з обчислення, але з цієї пари змінних. В результаті може виявитися, що для різних пар змінних коефіцієнти кореля-

ції будуть обчислені з різним числом об'єктів. При встановленні перемикача Exclude cases listwise (Порядкове вилучення об'єктів) програма перед початком обчислювального процесу виключить з розгляду всі об'єкти, що містять хоча б одне відсутнє значення. У будь-якому випадку, вирішення проблеми відсутніх значень краще провести на початок аналізу. Про те, як це можна зробити, розповідається у розділі 4.

За допомогою команди Crosstabs (Таблиці сполученості ), описаної в розділі 8, обчислюються частоти за градаціями пеколичествих(номінативних) змінних. Таблиці сполучення дозволяють порівнювати частоти для різних підгруп, які відповідають градаціям номінативної змінної. Наприклад, склавши таблицю сполученості полхоббі, ви могли бачити, що серед дівчат 15 захоплюються спортом, 27 — мистецтвом тощо. Команда Means (Середні) призначена для порівняння підгруп об'єктів за середніми значеннями кількісних ознак. У цьому передбачається, що у даних є як кількісні змінні, котрим обчислюються середні, а й номінативні змінні, поділяючі об'єкти на підгрупи. Команда Means (Середні) цілком застосовна і до даних файлу exOi.sav, який ми розглядаємо як приклад. Так, за допомогою цієї команди можна порівняти середні значення успішності (позначка!, позначка2) юнаків і дівчат (стаття), учнів різних класів (клас) і т. д. Результати обчислень подаються у вигляді таблиць, схожих на таблиці сполученості при використанні команди Crosstabs (Таблиці сполученості). Відмінність у тому, що з кожної підгрупи обчислюється як частота, по і середнє значення.

Команда Means (Середні) є однією з найпростіших у SPSS. Для вибраних підгруп вона підраховує середні значення, стандартні відхилення та частоти. Крім того, за допомогою кнопки Options (Параметри) можна задати виведення результатів одпофакторпого дисперсійного аналізу.

У меню Analyze (Аналіз) виберіть Compare Means ► Means (Порівняти середні ► Середні). На екрані з'явиться діалогове вікно Means (Середні),

У діалоговому вікні Means (Середні) вам необхідно задати змінні, які братимуть участь у процедурі. Список Dependent List (Залежні змінні) у верхній частині вікна призначений для кількісних змінних,Показники яких будуть обчислюватися. Наприклад, як залежні змінні можуть виступати змінні отметка1, отметка2, тест! і т. д. Список Dependent List (Залежні змінні) може містити декілька змінних, при цьому для кожної зі змінних можна задавати власні набори характеристик, що обчислюються.

За допомогою діалогового вікна Means: Options (Середні 1 Параметри) можна задати додаткові параметри виводу для Means (Середні). Наприклад, крім величі, що обчислюються за умовчанням (середнього значення, стандартного відхилення та числа об'єктів), можна вказати будь-яку сукупність показників, перелічених у списку Statistics (Статистики). Для цього слід виділити потрібний пункт списку, а потім натисканням кнопки зі стрілкою додати його до списку Cell Statistics (Статистики осередків).

Як уже згадувалося, команда Means (Середні) дозволяє виконувати одіо-факюрний дисперсійний аналіз. Для цього в групі Statistics for the First Layer (Статистики для першого шару) необхідно встановити прапорець ANOVA table and eta (Таблиця ANOVA та коефіцієнт Ця). У процесі угруповання залежної змінної отметка2 по градаціях незалежної змінної клас програма шляхом одно-факторного дисперсійного аналізу порівняє три середні значення для градацій змінної клас.