Вибірка, вибірковий розподіл

Загальний огляд

У статистиці населення представляє цілу групу індивідуумів, які нас цікавлять. Взагалі, вивчати цілу популяцію досить дорого і трудомістко, а деяких випадках просто неможливо, оскільки популяція то, можливо гіпотетичної, тому збирають дані про вибірці індивідуумів, як припускають, представників цієї популяції, і використовують їх у тому, щоб зробити висновки (т.е. е. робити висновки) щодо цієї популяції.

Коли беруть вибірку з популяції, мають на увазі, що інформація у вибірці не може повністю відображати те, що істинно в цій популяції. Можлива помилка, зумовлена вибіркою, оскільки вивчалася лише частина популяції.

Далі ми розберемо, як використовувати теоретичний розподіл ймовірності визначення величини цієї помилки.

Репрезентативна вибірка

Репрезентативна вибірка (representative sample) – одне з ключових понять аналізу даних. Репрезентативна вибірка - це вибірка з генеральної сукупності з розподіломF(x), що представляє основні особливості генеральної сукупності.

Наприклад, якщо у місті проживає 100 000 осіб, половина з яких чоловіки та половина жінки, то вибірка 1000 осіб з яких 10 чоловіків та 990 жінок, звичайно, не буде репрезентативною.

Побудований на її основі опитування громадської думки, звісно, міститиме усунення оцінок і призводить до фальсифікації результатів.

Необхідною умовою побудови репрезентативної вибірки є ймовірність включення до неї кожного елемента генеральної сукупності.

Вибіркова (емпірична) функція розподілу дає при великому обсязі вибірки досить гарне уявлення про функцію розподілуF(x) вихідної генеральноїсукупності.

Оцінка параметрів популяції: точкові оцінки

Ми часто зацікавлені в оцінці параметра популяції, середнього або стандартного відхилення. Зазвичай позначають середнє популяції як , а стандартне відхилення популяції як .

У статистиці прийнято позначати популяційні параметри (генеральні) літерами грецького алфавіту, а вибіркові - відповідними ним літерами латинського алфавіту, наприклад,m, і т.д.

Ми оцінюємо значення параметра, використовуючи дані, зібрані у вибірці.

Ця оцінка – точкова оцінка генерального параметра (тобто вона набуває лише одне значення) на відміну інтервальної оцінки, яка має інтервал значень.

Точкову оцінку визначає вибіркова статистика.

Вибіркова дисперсія, стандартне вибіркове відхилення

Якщо повторити вилучення вибірок того ж об'єму з популяції, малоймовірно, що оцінки параметра популяції будуть точно такими ж у кожній вибірці. Однак всі оцінки повинні бути близькими до справжнього значення параметра (генерального параметра) у популяції і подібні один до одного.

Визначаючи величину варіабельності цих оцінок, ми зрозуміємо, наскільки вони точні і таким чином зможемо оцінити помилку, зумовлену вибіркою.

Зазвичай беруть лише одну вибірку із популяції. Однак можна використовувати знання про теоретичний розподіл вибіркових оцінок для того, щоб зробити висновки щодо генерального параметра популяції.

Вибіркове стандартне відхилення sоцінюється за спостережуваною реалізацією вибірки:

Стандартне відхилення відображає варіабельність у значеннях даних і має бути вказано, якщо потрібно пояснити мінливість набору даних.

Вибірковий розподіл середнього, помилкасереднього

Припустимо, що ми зацікавлені в оцінці середньої популяції; можна брати багато повторних вибірок обсягуnз популяції та оцінити середнє у кожній вибірці.

Якщо обсяг вибірки розумно великий, оцінки середнього мають нормальний розподіл за будь-якого розподілу вихідних даних у популяції.

Це твердження випливає з теореми, відомої якцентральна гранична теорема:

→ N (0,1) при n → ∞

Якщо обсяг вибірки невеликий, оцінки середнього відповідають нормальному розподілу за умови, що дані популяції також відповідають нормальному розподілу;

Серед цих оцінок – незміщена оцінка справжнього середнього у популяції (генерального середнього), тобто. середнє цих оцінок еквівалентно істинному середньому у популяції;

Варіабельність розподілу виражається стандартним відхиленням оцінок, відомим як стандартна помилка середнього (часто позначається як Standard Error Means, SEM).

Якби ми знали стандартне відхилення популяції σ, тоді стандартна помилка среднег о описувалася б так:

Якщо є, як завжди, тільки одна вибірка, нашою найкращою оцінкою середньої популяції буде вибіркове середнє, а так як рідко буває відомо стандартне відхилення в популяції (генеральний стандарт), то стандартну помилку середнього оцінюють наступним чином:

деs– стандартне відхилення у вибірці.

Стандартна помилка середнього відображає точність нашої оцінки.

Велика стандартна помилка показує, що оцінка неточна;

Невелика стандартна помилка вказує на те, що оцінка точна;

Стандартна помилка зменшиться, тобто. ми отримаємо більш точну оцінку, якщо:

Об `ємвибірки збільшиться;

Дані мають невелике розсіювання.

Отже, стандартна помилка відображає точність вибіркового середнього та має бути вказана, якщо цікавить середнє значення набору даних.