Математико-статистичний аналіз

Аналіз первинних статистик.

Для визначення способів математико-статистичної обробки, перш за все, необхідно оцінити характер розподілу за всіма параметрами. Для параметрів, що мають нормальний розподіл або близький до нормального, можна використовувати методи параметричної статистики, які в багатьох випадках є потужнішими, ніж методи непараметричної статистики. Перевагою останніх є те, що вони дають змогу перевірити статистичні гіпотези незалежно від форми розподілу.

Одним із найважливіших у математичній статистиці є поняття нормального розподілу. Нормальний розподіл - модель варіювання деякої випадкової величини, значення якої визначаються безліччю незалежних факторів, що одночасно діють. Число таких факторів велике, а ефект кожного з них окремо дуже малий. Такий характер взаємовпливів дуже уражає психічних явищ, тому дослідник у сфері психології найчастіше виявляє нормальний розподіл. Однак так буває не завжди, тому в кожному випадку форма розподілу має бути перевірена.

Найважливішими первинними статистиками є:

а) середня арифметична - величина, сума негативних та позитивних відхилень від якої дорівнює нулю. У статистиці її позначають буквою М чи .

б) середнє квадратичне відхилення (що позначається грецькою буквою σ (сигма) і зване також основним, або стандартним відхиленням) – міра різноманітності об'єктів, що входять до групи; вона показує, наскільки в середньому відхиляється кожна варіанта (конкретне значення параметра, що оцінюється) від середньої арифметичної. Чим сильніше розкидані варіанти щодо середньої, тим більшим виявляється і квадратичне відхилення.

в)коефіцієнт варіації – приватне від поділу сигми на середню, помножене на 100%. Позначається CV.

Сигма – величина іменована і залежить тільки від ступеня варіювання, а й від одиниць виміру. Тому за сигмою можна порівнювати мінливість лише одних і тих самих показників, а зіставляти сигми різних ознак за абсолютною величиною не можна. Для того, щоб порівняти за рівнем мінливості ознаки будь-якої розмірності (виражені в різних одиницях виміру) і уникнути впливу масштабу виміру середньої арифметичної величину сигми застосовують коефіцієнт варіації, який є сутнісно приведення до однакового масштабу величини σ.

Для нормального розподілу відомі точні кількісні залежності частот і значень, що дозволяють прогнозувати появу нових варіантів:

1) Зліва і праворуч від середньої арифметичної лежить 50% варіант.

2) В інтервалі від M – σ до M + σ лежать 68.7 % всіх варіантів.

3) В інтервалі від M – 1.96σ до M + 1. 96σ лежать 95% варіант.

Отже, орієнтуючись ці характеристики нормального розподілу, можна оцінити ступінь близькості до нього аналізованого розподілу.

Наступними за важливістю є такі первинні статистики як коефіцієнт асиметрії та ексцес. Коефіцієнт асиметрії – показник скошеності розподілу у ліву та праву сторону по осі абсцис. Якщо права гілка кривої довша лівої – говорять про позитивну асиметрію, у протилежному випадку – про негативну. Ексцес - показник гостроверхості. Криві вищі в середній частині, гостроверхі, називаються ексцесивними, у них велика величина ексцесу. При зменшенні величини ексцесу, крива стає все більш плоскою, набуваючи вигляду плато, а потім і сідловини – з прогином всередню частину.

Ці параметри дозволяють скласти перше наближене уявлення про характер розподілу:

1) у нормального розподілу рідко можна виявити коефіцієнт асиметрії близький до одиниці та більше одиниці (і -1, +1);

2) ексцес ознак з нормальним розподілом зазвичай має величину в діапазоні 2 - 4.

Наголосимо, що це лише приблизна оцінка. Точну та сувору оцінку нормальності розподілу можна отримати, використовуючи один із існуючих методів перевірки. (Див., наприклад, книгу Г.В. Суходольського "Основи математичної статистики для психологів", Л., 1972. Глави 2 та 5.)

Почати з аналізу первинних статистик треба ще й з тієї причини, що вони дуже чутливі до наявності варіантів, що випадають. Насправді ж, дуже великі ексцес і асиметрія є індикатором помилок при підрахунках вручну чи при введенні даних через клавіатуру при комп'ютерній обробці. Існує правило, за яким усі розрахунки вручну повинні виконуватися двічі (особливо відповідальні – тричі), причому бажано різними способами, з варіацією послідовності звернення до числового масиву.

Щодо ніколи не вдається повністю охарактеризувати ціле, завжди залишається ймовірність того, що оцінка генеральної сукупності на основі вибіркових даних недостатньо точна, має деяку більшу чи меншу помилку. Такі помилки, що є помилками узагальнення, екстраполяції, пов'язані з перенесенням результатів, отриманих щодо вибірки, протягом усього генеральну сукупність, називаються помилками репрезентативність. Репрезентативність – ступінь відповідності вибіркових показників генеральним параметрам.

Статичні помилки репрезентативності показують, у яких межах можуть відхилятися відпараметрів генеральної сукупності (від математичного очікування чи справжніх значень) наші чесні визначення, отримані виходячи з конкретних вибірок. Очевидно, що величина помилки тим більше, що більше варіювання ознаки і що менше вибірка. Це і відображено у формулах для обчислення статичних помилок, що характеризують варіювання вибіркових показників навколо їх генеральних параметрів.

До первинних статистик входить статистична помилка середньої арифметичної. Формула для її обчислення така:

де: mM – помилка середньої, σ – сигма, n – число значень ознаки.