Small-sample statistics)

ALTE DOCUMENTE

Статистика малих вибірок (small-sample statistics)

t-розподіл. Теоріяt-розподілу, подібно до теоріїz-розподілу, використовується для перевірки нульової гіпотези про те, що дві вибірки являють собою просто випадкові вибірки з однієї генеральної сукупності і, отже, обчислені статистики ( напр., середнє та стандартне відхилення) яв-ся незміщеними оцінками параметрів генеральної сукупності. Однак, на відміну від теорії нормального розподілу, теоріяt-розподілу для малих вибірок не вимагає апріорного знання або точних оцінок математичного очікування та дисперсії генеральної сукупності. Понад те, хоча перевірка різницю між середніми двох великих вибірок на статистичну значимість вимагає принципового припущення про нормальному розподілі характеристик генеральної сукупності, теоріяt-розподілу вимагає допущень щодо параметрів.

Загальновідомо, що нормально розподілені характеристики описуються однією єдиною кривою - кривою Гаусса, яка задовольняє наступному рівнянню:

Приt-розподілі ціле сімейство кривих представлене такою формулою:

Ось чому рівняння дляtвключає гамма-функцію, яка в математиці означає, що при зміні даного рівняння задовольнятиме інша крива.

У рівнянні дляtбуквоюппозначається число ступенів свободи (df),пов'язаних з оцінкою дисперсії генеральної сукупності (S2 ), яка являє собою другий момент будь-якої виробляє функції моментів, такий, напр., як рівняння дляt-розподілу. У С. число ступенів свободивказує на те, скільки характеристик залишилося вільним після їх часткового використання у конкретному вигляді аналізу. Уt-розподіл один з відхилень від вибіркового середнього завжди фіксовано, так як сума всіх таких відхилень повинна дорівнювати нулю. Це позначається на сумі квадратів при обчисленні вибіркової дисперсії як незміщеної оцінки параметра S 2 і веде до того, щоdfвиходить дорівнює кількості вимірів мінус одиниця для кожної вибірки. Звідси, у формулах та процедурах обчислення t-статистики для перевірки нульової гіпотезиdf = n -2.

З цього вийшли класичні роботи Фішера за дисперсійним аналізом статистичного методу, явно орієнтованому на аналіз малих вибірок.

Вибірковий розподілF(де п = df) представлений наступним рівнянням:

Як і у випадкуt-розподілу, гамма-функція вказує на те, що існує сімейство розподілів, що задовольняють рівняння дляF.У цьому випадку, однак, аналіз включає два величиниdf: число ступенів свободи для чисельника і знаменника F-відносини.

Таблиці для оцінювання t-іF-статистик. При перевірці нульової гіпотези за допомогою С., заснованих на теорії великих вибірок, зазвичай потрібна лише одна довідкова таблиця - таблиця нормальних відхилень (z), що дозволяє визначити площу під нормальною кривою між будь-якими двома значеннями z на осі абсцис. Однак таблиці для t- іF-розподілів за потребою представлені комплектом таблиць, оскільки ці таблиці засновані на безлічі розподілів, отриманих внаслідок варіювання числа ступенів свободи. Хочаt-іF-розподілу є розподілом щільності ймовірності, як і нормальний розподіл для великихвибірок, вони відрізняються від останнього щодо чотирьох моментів, які використовуються для їх опису.t-розподіл, напр., є симетричним (зверніть увагу на t 2 у його рівнянні) при всіхdf,але стає все більш гострий у міру зменшення обсягу вибірки. Гостровершинні криві (з ексцесом більше нормального) мають тенденцію бути менш асимптотичними (тобто менше наближатися до осі абсцис на кінцях розподілу), ніж криві з нормальним ексцесом, такі як крива Гауса. Ця відмінність призводить до помітних розбіжностей між точками на осі абсцис, що відповідають значенням t іz.Приdf =5 і двосторонньому рівніа,рівному 0,05,t =2,57, тоді як відповіднеz =1,96. Отже,t =2,57 свідчить про статистичну значущість на 5% рівні. Однак у разі нормальної кривоїz =2,57 (точніше 2,58) вже вказуватиме на 1% рівень статистичної значущості. Аналогічні порівняння можна провести і зF-розподілом, оскільки t дорівнює F у разі коли число вибірок дорівнює двом.

Що становить «малу» вибірку?

Свого часу було порушено питання про те, який обсяг повинна мати вибірка, щоб її можна було вважати малою. Певної відповіді це питання просто немає. Однак умовною межею між малою і великою вибіркою прийнято вважатиdf =30. Підставою для цього певною мірою довільного рішення є результат порівняння t-розподілу з нормальним розподілом. Як зазначалося вище, розбіжність значеньtіzмає тенденцію зростати зі зменшенням і знижуватися зі збільшенням df. Фактично,tпочинає тісно наближатися доzзадовго до граничного випадку, колиt = zпри df = ∞. Просте візуальне вивченнятабличних значеньtдозволяє побачити, що це наближення стає досить швидким, починаючи зdf =30 і вище. Порівняльні величиниt(приdf =30) іzрівні відповідно: 2,04 та 1,96 дляр =0, 05; 2,75 та 2,58 дляр =0,01; 3,65 та 3,29 для р = 0,001.

Інші статистики для «малих» вибірок

Хоча такі статистичні критерії, якtіF, спеціально розроблені для застосування до малих вибірок, вони однаково застосовуються і до великих вибірок. Існує, однак, безліч інших статистичних методів, призначених для аналізу малих вибірок і часто використовуються саме для цієї мети. Маються на увазі т.з. непараметричні чи вільні від розподілу методи. В основному, що фігурують у цих методах С. призначені для застосування до вимірювань, отриманих за допомогою шкал, що не задовольняють визначення шкал відносин або інтервалів. Найчастіше це порядкові (рангові) чи номінальні виміри. Непараметричні С. не вимагають припущень щодо параметрів розподілу, зокрема щодо оцінок дисперсії, тому що порядкові і номінальні шкали виключають саме поняття дисперсії. Тому непараметричні методи використовуються також для вимірювань, отриманих за допомогою інтервальних шкал і шкал відносин, коли аналізуються малі вибірки і існує ймовірність того, що порушуються основні припущення, необхідні для застосування параметричних методів. До таких С., які можна обґрунтовано застосовувати до малих вибірок, відносяться: критерій точної ймовірності Фішера, двофакторний непараметричний (ранговий) дисперсійний аналіз Фрідмана, коефіцієнт рангової кореляції t Кендалла, коефіцієнт конкордації (W) Кендалла, H-критерій Фаркела Уоллеса длянепараметричного (рангового) однофакторного дисперсійного аналізу,U-критерій Манна-Уітні, медіанний критерій, критерій знаків, коефіцієнт рангової кореляціїrСпірмена таt-критерій Вілкоксона.

такожВірогідність, Статистичний висновок, Змінні у наукових дослідженнях