Парна кореляція

Практичне заняття 7

КОРЕЛЕЦІЙНИЙ АНАЛІЗ

1. Парна кореляція. 1

2. Множинна кореляція. 26

Парна кореляція

При парній кореляції встановлюють залежність між двома ознаками, одна з яких є факторною, інша - результативною. Зв'язок між ними може мати різний характер. Тому важливо правильно встановити форму зв'язку між ознаками та відповідно до цього підібрати математичне рівняння, що виражає цей зв'язок.

Питання формі зв'язку можна вирішити кількома способами: з урахуванням логічного аналізу, за даними статистичної угруповання чи графічним способом. При парної кореляції кращий останній спосіб, оскільки він дозволяє виявити як характер зв'язку, але дає уявлення про рівень зв'язку.

Після того, як визначено вид рівняння зв'язку, необхідно знайти числові значення параметрів. При обчисленні параметрів застосовують різні методи: метод найменших квадратів, метод середніх, метод найменшого граничного ухилення та ін. Найпоширенішим є метод найменших квадратів. При його використанні знаходять такі значення параметрів рівняння регресії, за яких сума квадратів відхилень фактичних даних від розрахункових є мінімальною:

,

деy- фактичне значення результативної ознаки;

- Розрахункове значення результативної ознаки.

І тому вирішують систему нормальних рівнянь, які будуються в такий спосіб.

Розглянемо, як виходить система нормальних рівнянь рівняння лінійної регресії .

У даному рівнянні коефіцієнт при першому невідомомуа0 дорівнює 1. Отже, вихідне рівняння післяперемноження зберігає колишній вигляд:

,

а після підсумовування

.

Коефіцієнт при другому невідомомуa1 дорівнюєx.Помножуючи на нього всі члени вихідного рівняння, отримаємо:

,

а після підсумовування

.

Значення , , і розраховують за даними спостереження, а невідомі параметриa0 іa1 - шляхом розв'язання системи рівнянь:

Правила отримання системи нормальних рівнянь поширюються попри всі види рівнянь регресії. Після того, як визначено параметри рівняння регресії, необхідно його оцінити, тобто перевірити, наскільки воно відповідає сукупності, що вивчається, і як тісно пов'язаний результативний ознака з фактором, що зумовлює його рівень. І тому порівнюють варіацію значень результативного ознаки, розрахованих за рівнянням регресії, тобто залежних від факторного ознаки, з варіацією фактичних (вихідних) значень результативного ознаки. Чим ближче перша варіація буде до другої, тим більше рівняння регресії відбиває зв'язок між ознаками, тим вони пов'язані.

Показник, що характеризує відношення варіацій розрахункових та вихідних значень результативної ознаки, називають індексом кореляції. Його розраховують за такою формулою:

,

деI- індекс кореляції;

- загальна дисперсія результативної ознаки (середній квадрат відхилень фактичних значеньувід середньої);

- факторна дисперсія результативної ознаки, розрахованої за рівнянням регресії (середній квадрат відхилень розрахункових значень від середньої);

n- чисельність сукупності.

Індекс кореляції змінюється в межах від 0 до 1. Він показує, що чим ближче його значення до 1, тим більше зв'язок між ознаками, і тим кращерівняння регресії визначає взаємозв'язок між ознаками. При індексі кореляції рівному 1 взаємозв'язок між ознаками є функціональним.

Оскільки факторна дисперсія показує варіацію результативної ознаки, яка залежить від факторної ознаки, можна розрахувати залишкову дисперсію, що показує варіацію інших неврахованих факторів. Вона дорівнює різниці між загальною та факторною дисперсіями:

,

де - Залишкова дисперсія.

Залишкова дисперсія показує варіацію фактичних значень результативної ознаки щодо розрахункових значень, тобто коливання фактичних значень щодо лінії регресії. Чим менше буде ця коливання, тим більшою мірою рівняння регресії відбиває зв'язок між ознаками.

Формула індексу кореляції, розрахованого на основі залишкової та загальної дисперсій, має вигляд:

.

Для лінійної регресії індекс кореляції називають коефіцієнтом кореляції. Формула його при парній кореляції після перетворення має вигляд:

,

деr- коефіцієнт кореляції;

- середні значення факторної та результативної ознак;

- Середнє значення творів факторної та результативної ознак;

- Середні квадратичні відхилення факторної та результативної ознак.

На відміну від індексу кореляції коефіцієнт кореляції показує як тісноту зв'язку, а й її напрям, оскільки змінюється не більше -1 до +1. Якщо коефіцієнт кореляції позитивний, то зв'язок між ознаками прямий (прямо пропорційний), якщо негативний, то зв'язок зворотний (назад пропорційний).

Квадрати індексу кореляції та коефіцієнта кореляції називають відповідно індексом детермінації (I2 )коефіцієнтом детермінації (r2). Індекс детермінації та коефіцієнт детермінації показують, яка частка загальної варіації результативної ознаки визначається фактором, що вивчається.

Так як надійність вивчення зв'язків значною мірою залежить кількості спорівнюваних даних, необхідно вимірювати суттєвість отриманого рівняння регресії та індексу (коефіцієнта) кореляції. Показники кореляції, обчислені для обмеженої обсягом сукупності, можуть бути спотворені дією випадкових чинників.

Істотність індексу (коефіцієнта) кореляції, а, отже, всього рівняння регресії, може бути оцінена за допомогою дисперсійного аналізу (F-критерію Фішера). При цьому порівнюють факторну та залишкову дисперсію з урахуванням числа ступенів свободи варіації.F-критерій у цьому випадку розраховують за формулою:

,

де – вибіркова факторна дисперсія;

- вибіркова залишкова дисперсія;

n- чисельність вибіркової сукупності;

k– кількість параметрів у рівнянні регресії.

ЗначенняF-критерію можна отримати також, використовуючи значення індексу або коефіцієнта кореляції:

; .

Отримане значення F-критерію порівнюють із табличним значенням. При цьому для факторної дисперсії число ступенів свободи варіації становить, а для залишкової дисперсії Якщо фактичне значенняF-критерію більше табличного, отже, зв'язок між ознаками достовірний і рівняння регресії повною мірою відображає цей зв'язок. Якщо фактичне значенняF-критерію менше табличного, можна зробити висновок, що зв'язок між ознаками носить випадковий характер.

Для оцінки значущості індексу (коефіцієнта) кореляції та рівняння регресії також використовуютьt-критерій Стьюдента, який для великих вибірок розраховують за формулами:

Для малих вибірок формули мають вигляд:

Також, як за дисперсійного аналізу, фактичне значенняt-критерію порівнюють з табличним з урахуванням числа ступенів свободи варіаціїn = n - k.Якщо фактичне значенняt- критерію більше табличного, то зв'язок достовірний, якщо менше, то зв'язок несуттєвий.

Розглянемо методику кореляційного аналізу парної кореляції.

Приклад 1. За вибірковими даними отримані відомості про середньорічний удой корів та витрату кормів на голову (табл. 7.1).