Дисперсійний аналіз Дисперсійний аналіз (англ.

Дисперсійний аналіз (англ. Analysis of Vfriance, Anova) є одним із основних статистичних методів. Важливість уміння працювати з його алгоритмами визначається не лише тими можливостями, які він надає досліднику самостійного аналізу даних.

Дисперсійний аналіз служить перевірки гіпотези про статистичної значущості відмінностей між середніми величинами у кількох групах спостережень. Наприклад, за результатами соціологічного дослідження ми виявили дві групи респондентів: які взяли участь в останніх федеральних виборах (група 1) і проігнорували голосування (група 2). Провівши описовий статистичний аналіз обох груп, ми виявили, що вони значно різняться за середніми значеннями змінної «вік». Група «активних виборців» у середньому значно старша, ніж група «абсентеїстів». Нижче в таблиці представлені вихідні дані (зрозуміло, у реальному дослідженні обсяги вибірок повинні бути значно більшими). Змінна «вік» є інтервальної. Змінна «участь у виборах» відноситься до номінальних дихотомічних змінних і приймає лише два значення: «взяв участь» («активні виборці», код 1) або «не взяв участі» («пасивні виборці», код 2).

Вік

Активні виборці (код 1)

Вік

Пасивні виборці

(код 2)381232761502411192571342821452631222471332581182641222711452491272431372Середнє у групі I: 57,42Середнє у групі 2: 31,25

Тепер спробуємо відповісти на запитання: чи не є різниця між середніми у двох групах випадковою? Наскільки ймовірно, що активні виборці в середньому старші за пасивні і в генеральній сукупності? Питання аж ніяк не пусте. Переконавшись у існуванні значних відмінностей між середніми, ми зможемо оперувати змінними «вік» та «участь у виборах» у термінах залежності. Знаючи значення незалежної змінної («вік») — з певною часткою статистичної ймовірності передбачати значення групуючої змінної «участь у виборах». Іншими словами, «вік» може грати роль змінної-предиктора (передбачуваного фактора) при віднесенні об'єкта до одного з класів змінної, що групує.

Сформулюємо дві гіпотези - нульову та альтернативну. Відповідно до нульової гіпотезою відмінності середньої є випадковими, залежність між змінною «вік» та змінною «участь у виборах» відсутня. Альтернативна гіпотеза ґрунтується на протилежному затвердженні.

Обчислювальна логіка дисперсійного аналізу базується на розбиття загальної дисперсії (варіації) змінної на дві компоненти, одна з яких обумовлена випадковістю, а інша пов'язана з різницею середніх значень. Як міра «випадкової помилки» виступає сума дисперсій змінної всередині кожної групи, яка потім порівнюється із загальною дисперсією (дисперсією змінної без урахування значень змінної, що групує). Проілюструємо цю логіку на прикладі.

1. Обчислюємо відхилення від середньої групи активних виборців (з середньої віднімаємо значення змінної).

2. Зводимо всі отримані значення квадрат.

3. Підсумовуємо всі квадрати відхилень.

4. Повторюємо самі операції для групи 2.

Тепер можна розрахувати один із елементів підсумкової дисперсійної статистики - суму квадратів помилки (дисперсію помилки або залишковий компонент), яка в статистичних програмах, як правило, позначається SS-error (sum ofsquares error). Складаємо суму квадратів відхилень для групи 1 та групи 2 і отримуємо 3599,17.

Далі необхідно обчислити загальну варіацію змінної щодо єдиної середньої (у разі — 44,3). Діємо так само, як раніше, — обчислюємо суму квадратів відхилень, проте тепер уже без урахування поділу спостережень на дві групи. Загальна сума квадратів відхилень становитиме у разі 7707,33.

Віднімаємо суму квадратів відхилень помилки із загальної суми квадратів відхилень і отримуємо другий елемент підсумкової статистики дисперсійного аналізу — так звану суму квадратів ефекту (позначається A-effect, у нашому випадку — 4108,16). Це міжгрупова дисперсія - варіація залежної змінної, "очищена" від випадкового компонента, пов'язаного із внутрішньогруповою мінливістю.

Саме відношення міжгрупової дисперсії до дисперсії помилки (внутрішньогрупової дисперсії) покаже статистичну значущість середньої, точніше — значущість різниці між середніми значеннями у двох групах. Чим більше відношення міжгрупової дисперсії до внутрішньогрупової, тим більшою значимістю має відмінність середніх. Інакше кажучи, що менше частка випадкових помилок, то вище статистична значимість.

У дисперсійному аналізі ставлення дисперсійпоказує критерій Фішера, або F-критерій (/Л-відношення). Він перевіряє, чи справді відношення дисперсій значно більше 1. Для обчислення F-статистики використовуються показники JI/5-error і MS`-effect - середні квадрати ефекту та помилки (Mean Square). Це ті ж SS-error і A-effect, але перетворені з поправкою на обсяг сукупності (кількість значень, що приймаються змінною). У прикладі MS-effect = SS-effect = 4108,16; MS-tnox = 163,59 (значення 55-error - 3599,17, розділене на число випадків у вибірці - 22); F = 25,1, тобто.

Корисним показником в л-статистиці є також показник, що відображає значущість f-критерію. Це ймовірність того, що при даному значенні /Л-критерію правильна нульова гіпотеза. У звичайному випадку нульова гіпотеза відкидається при змінну; 3) взаємодія факторів 1 і 2 у їхньому спільному впливі на залежну змінну дорівнює 0.

У прикладі для однофакторного дисперсійного аналізу ми вивчали зв'язок між незалежною змінною «вік» та залежною змінною «участь у виборах». Додамо ще одну незалежну змінну — «підлогу». Це номінальна дихотомічна змінна, що приймає два значення: «чоловічий» (1) та «жіночий» (2). Змінну «вік» необхідно перетворити з інтервальної шкали на порядкову. З цією метою виділимо вікові групи: від 18 до 35 років (1), від 35 до 50 років (2), старше 50 (3). Отже, ми отримали дві факторні та одну залежну змінну:

1. Вік, значення 1 (молодший), 2 (середній), 3 (старший).

2. Стать, значення 1 (чоловічий), 2 (жіночий).

3. Участь у виборах, значення 1 (участь), 2 (неучасть).

Припустимо, ми маємо такі вихідні дані (навчальний приклад):

ВікУчастьПідлогаВікУчастьПідлога11122111222111222111222111222121311121311121311- 12231122311211321212321212221212321212321

Корисно уявити вихідні дані через комбінації поєднань значень незалежних змінних. Це зручно робити у формі таблиці, де в осередках будуть відображені відповідні частоти залежної змінної станів незалежних змінних.

Участь 1	Участь 2
Вік 1. Стать 1	1	4
Вік 1. Стать 2	3	2
Вік 2. Стать 1	1	4
Вік 2. Стать 2	4	1
Вік 3. Стать 1	4	1
Вік 3. Стать 2	5	0

Дивлячись на таблицю, можна сформулювати деякі припущення (альтернативні гіпотези):

• вік впливає на участь у виборах (що старшевиборець, тим активніше);

• стать впливає на участь у виборах (жінки ходять на вибори активніше за чоловіків);

• поєднання статі та віку впливає на участь у виборах. Активність чоловіків із віком зростає інтенсивніше, ніж активність жінок.

Перевіряємо наші нульові та альтернативні гіпотези за допомогою дисперсійного аналізу.

"/-effect

MS-ефект

df-еrrоr

MS-еrrоr

Р-

значенняВік20,636893240,1847223,447840,048279Підлога11,250228240,1847226,7681530,015649Вік-підлога20,116215240,1847220,6291320,541618

P значення для змінної "вік" дорівнює 0,04, для змінної "підлога" - 0,01. У обох випадках ми маємо право відкинути нульову гіпотезу і визнати наявність впливу, оскільки /КО,05. А ось у третьому випадку, де йдеться про взаємодію факторних змінних, наше припущення не набрало достатньої статистичної ваги: при р = 0,54 нульова гіпотеза залишається чинною.