Районована вибірка

У математичній статистиці,районована вибірка(інша назва –стратифікована вибірка) – метод семплювання з генеральної сукупності, який дозволяє покращити точність статистичних результатів при розбиття всього простору подій на кілька областей-страт та незалежної роботи з цими стратами. Наприклад, у кожній страті можна застосовувати свою власну вибірку за значимістю.

Зміст

Припустимо, що нам слід оцінити середню кількість голосів, поданих за кожного кандидата на виборах. Припустимо, що в країні 3 міста: у місті А живе 1 мільйон заводських робітників, у місті Б живе 2 мільйони офісних працівників, а у місті В живе 3 мільйони пенсіонерів. Ми можемо вибрати отримання випадкової вибірки розміром у 60 голосів з усієї популяції, але є певна ймовірність, що випадкова вибірка виявиться погано збалансованою по цих містах і, отже, буде необ'єктивною та малокорисною («середня температура по лікарні»), викликаючи значну похибку в оцінці . Натомість, якщо ми виберемо використовувати просту випадкову вибірку в 10, 20 та 30 голосів з міст А, Б і В відповідно, ми можемо отримати меншу похибку в оцінці при тому самому загальному розмірі вибірки.

Причини використовувати районовану вибірку замість простої випадкової вибірки [1] :

  • Якщо виміри у межах страт мають невелике середньоквадратичне відхилення, стратифікація дає меншу похибку в оцінці.
  • У багатьох випадках виміри стають дешевшими та/або більш здійсненними, коли населення групується в страту.
  • Найчастіше бажано мати оцінки популяційних параметрів для груп населення.

Якщо густота населення сильно варіюється в межах регіону, районована вибірка будегарантувати, що можна з однаковою точністю зробити оцінки у різних частинах регіону і порівняння субрегіонів можна з однакової статистичної потужністю. Наприклад, в Онтаріо в дослідженні, що проводиться на території всієї провінції, можна використовувати більшу частку вибірки з менш населеної півночі, так як різниця в чисельності населення між північчю і півднем настільки велика, що частка вибірки з провінції загалом може призвести до збору лише дуже невеликої кількості даних із півночі.

Також можна використовувати рандомізовану стратифікацію для збільшення репрезентативності населення у дослідженні.