Статистична допомога

Найпростішою системою кореляційного зв'язку є лінійний зв'язок між двома ознаками - парна лінійна кореляція.

Практичне значення її в тому, що є системи, у яких серед усіх факторів, що впливають на результативну ознаку, виділяється один найважливіший фактор, який здебільшого визначає варіацію результативної ознаки. Вимірювання парних кореляцій становить необхідний етап у вивченні складних, багатофакторних зв'язків. Є такі системи зв'язків, щодо яких слід віддати перевагу парну кореляцію. Увага до лінійних зв'язків пояснюється обмеженою варіацією змінних і тим, що здебільшого нелінійні форми зв'язків до виконання розрахунків перетворюються на лінійну форму.

Рівняння парного лінійного кореляційного зв'язку називається рівнянням парної регресії і має вигляд:

де у – середнє значення результативної ознаки > при певному значенні факторної ознаки х;

а - вільний член рівняння;

b - коефіцієнт регресії , що вимірює середнє відношення відхилення результативної ознаки від його середньої величини до відхилення факторної ознаки від його середньої величини на одну одиницю його виміру - варіація у , що припадає на одиницю варіації х .

Що ж до терміна регресія , його походження таке : творці кореляційного аналізу Ф . Гальтон (1822 - 1911) і До. Пірсон (1857 - 1936) цікавилися зв'язком між зростанням батьків та їхніх синів. Ф. Гальтон вивчив більше 200 сімей і виявив, що у групі сімей з високорослими батьками сини в середньому нижче зростанням, ніж їхні батьки, а в групі сімей з низькорослими батьками сини в середньому вище за батьків. Таким чином, відхилення зростання від середньої внаступному поколінні зменшується - регресує. Причина в тому, що на зростання синів впливає не тільки зростання батьків, а й зростання матерів та багато інших факторів розвитку дитини, і ці фактори, випадково спрямовані як у бік збільшення, так і зниження зростання, наближають зростання синів до середнього зростання. В цілому ж варіація зростання, звичайно, не зменшується, а в наш час «акселерації» саме середнє зростання збільшується з покоління до покоління.

Рівняння (8.4) визначається за даними про значення ознак х і у досліджуваної сукупності, що складається з п одиниць. Параметри рівняння і b знаходяться методом найменших квадратів ( МНК ).

Вихідна умова МНК для прямої лінії має вигляд:

Для відшукання значень параметрів а ч b, при яких f(a,b) набуває мінімального значення, приватні похідні функції прирівнюємо нулю і перетворюємо одержувані рівняння, які називаються нормальними рівняннями МНК для прямої:

статистична

Звідси система нормальних рівнянь має вигляд:

допомога

Нормальні рівняння МНК для прямої лінії регресії є системою двох рівнянь із двома невідомими а та b. Всі інші величини, що входять до системи, визначаються за вихідною інформацією. Таким чином, однозначно обчислюються при вирішенні цієї системи рівнянь обидва параметри рівняння лінійної регресії.

Якщо перше нормальне рівняння розділити на п, отримаємо:

За рівнянням (8.6) зазвичай практично обчислюється вільний член рівняння регресії а . Параметр b обчислюється за перетвореною формулою, яку можна вивести, вирішуючи систему нормальних рівнянь щодо b:

. (8.7)

Так як знаменник цього виразу є не що інше, як дисперсія ознаки х, т.е. е. ст 2 ^, то можна записати формулукоефіцієнта регресії у вигляді:

(8-8)

Підставивши в (8.8) вираз для σ 2 x отримаємо :

. (8.9)

Параметри рівняння регресії можна обчислити через визначники:

(8.10)

де Δ - визначник системи;

Δ a - приватний визначник, що отримується в результаті заміни коефіцієнтів при а вільними членами з правої частини системи рівнянь;

b - приватний визначник, що отримується в результаті заміни коефіцієнтів при b вільними членами з правої частини системи рівнянь.

Формули (8.10) відповідають найзагальнішого підходу до визначення параметрів рівняння регресії і можуть застосовуватися у разі як парної, так і множинної регресії.

Застосування однієї з формул (8.7), (8.8) або (8.9) залежить від характеру даних та наявності вже обчислених на попередніх етапах аналізу показників. Якщо було обчислено x ? , y? , x , y y , то простіше застосувати формулу (8.7) або (8.8). Якщо розрахунок параметрів рівняння кореляційного зв'язку ведеться з первинних даних х i , у i , то зручніше формула (8.9). Особливо істотно вона скорочує обсяг обчислень при слабкій варіації ознак, бо тоді відхилення їх індивідуальних значень від середніх величин на порядок або два менше від самих індивідуальних і середніх величин. Крім того, формула (8.9) явно виражає вказану в п. 8.1 особливість кореляційного аналізу зв'язків: параметри кореляції залежать немає рівнів ознак, лише від їх відхилень від середніх значень.

Якщо значення ознаки збільшити в 10 разів, кореляція не зміниться, також не зміняться параметри кореляції, крім вільного члена, якщо до всіх значень кожної ознаки додати постійне число.

Коефіцієнт парної лінійної регресії, позначений Ь, маєсенс показника сили зв'язку між варіацією факторної ознаки х та варіацією результативної ознаки у . Він вимірює середнє за сукупністю відхилення від його середньої величини при відхиленні ознаки х від своєї середньої величини на прийняту одиницю виміру.

Наприклад, за даними табл. 8.1 при відхиленні витрат за 1 корову від середньої величини на 1 руб. надій молока на корову відхиляється від свого середнього значення на 3,47 кг у середньому за сукупністю. При відхиленні фактора на х? i-х? результативна ознака відхиляється в середньому на у? i - у? .

Тіснота парного лінійного кореляційного зв'язку, як і будь-який інший показник, може бути виміряна кореляційним ставленням η. Крім того, при лінійній формі рівняння застосовується інший показник тісноти зв'язку - коефіцієнт кореляції r xy. Цей показник є стандартизованим коефіцієнтом регресії , т . е. коефіцієнт, виражений над абсолютних одиницях виміру ознак, а частках середнього квадратичного відхилення результативного ознаки:

. (8.11)

Коефіцієнт кореляції було запропоновано англійським статистиком і філософом Карлом Пірсоном (1857 – 1936). Його інтерпретація така: відхилення ознаки-фактора від його середнього значення на величину свого середнього квадратичного відхилення в середньому за сукупністю призводить до відхилення ознаки-результату від свого середнього значення на r xy його середнього квадратичного відхилення.

На відміну від коефіцієнта регресії b коефіцієнт кореляції залежить від прийнятих одиниць виміру ознак , отже , він можна порівняти будь - яких ознак .

Зазвичай вважають зв'язок сильним, якщо r ≥ . 0,7; середньої тісноти при 0,5 ≤ r ≤ 0,7; слабкої при г Не слід, особливо працюючи з ЕОМ, гнатися за великимчислом знаків коефіцієнта кореляції. По-перше, вихідна інформація рідко має більше трьох значних точних цифр, по-друге, оцінка тісноти зв'язку не вимагає більше двох значущих цифр.

Квадрат коефіцієнта кореляції називається коефіцієнтом детермінації:

Ця формула знадобиться при . аналізі множинної кореляції. Помноживши чисельник і знаменник (8.12) на отримаємо:

статистична

Цей вираз відповідає виразу г\2 (див. формулу (8.2)). Тотожність коефіцієнта детермінації та квадрата кореляційного відношення служить основою для інтерпретації величини г 2 як частки загальної дисперсії результативної ознаки у , яка пояснюється варіацією ознаки - фактора х (і зв'язком між варіацією обох ознак ). Власне кажучи, основним показником тісноти зв'язку і слід вважати коефіцієнт детермінації (для лінійної формули зв'язку) або квадрат кореляційного відношення. Але історично раніше було введено коефіцієнт кореляції, який тривалий час розглядався як основний показник.

Аналогічно різним «робочим» формулам для обчислення коефіцієнта регресії можна з урахуванням вихідної формули (8.10) підвчити різні «робочі» формули коефіцієнта кореляції .

  1. Розділивши чисельник і знаменник формули (8.11) на п, отримаємо:

. (8.14)

Ця формула відповідає формулі (8.8) для коефіцієнта регресії.

2. Середні квадратичні відхилення можна виразити через середні величини ознаки:

.

Підставивши ці вирази (8.14), отримаємо :

. (8.15)

Ця формула (8.15) зручніша для розрахунків, якщо середні величини ознак та середні квадрати індивідуальних величин обчислені раніше. Сенс же коефіцієнта кореляції розкривається вихідноюформулою (8.11). У перетворених формулах цей сенс не такий зрозумілий.

Розглянемо фактичний приклад аналізу кореляційної парної лінії зв'язку за даними 16 сільгосппідприємств про витрати на 1 корову та про надої молока на корову. Обмежений обсяг сукупності прийнято лише у навчальних цілях, щоб уникнути приведення громіздких таблиць (табл. 8.1).

Середні значення ознак: x? = 1605 руб.; у ? = 35,2 ц/голів.

Зіставляючи знаки відхилень ознак jc і в від середніх величин , бачимо явне переважання пар відхилень , що збігаються за знаками пар : їх 14 і тільки 2 пари знаків , що не збігаються .

Кореляція між витратами на корову та надоєм молока