Процедура простого випадкового відбору

За сформованою основою вибірки легко реалізувати процедуру простого випадкового відбору. Для цього потрібно дотримання рівності шансів влучення одиниць відбору у вибіркову сукупність. Виділяють: а) простий випадковий безповторний відбір; і б) простий випадковий повторний відбір.

Здійснюватися кожен з різновидів процедури може різними способами. Опишемо один із них. Нехай основа вибірки міститьNодиниць. Тоді, щоб обратиподиниць спостереження у вибіркову сукупність, напишемо всі номери від 1 доNна окремі картки, ретельно їх перемішаємо і навмання виймемо одну з них. Номер витягнутої картки задає відповідну одиницю спостереження, що потрапила у вибіркову сукупність. Потім картка повертається на місце, вони знову перемішуються, навмання, виймається нова картка, і так далі триває п'ять разів. Так реалізується процедурапростого випадкового повторного відбору.Якщо витягнуту картку не повертати назад, а відкладати убік, то той же процес призведе нас допростої випадково безповторної вибіркирозміромподиниць спостереження або, як ще кажуть, обсягом n одиниць.

Описана процедура простого, випадкового відбору стає надзвичайно трудомісткою, якщо числоN,задає обсяг основи вибірки, велике. Головна складність полягає в тому, що забезпечення рівної ймовірності попадання одиниці спостереження у вибіркову сукупність потребує ретельного перемішування.

Щоб усунути труднощі, що виникають при дослідженні великих генеральних сукупностей (а саме таких більшість у соціології), для реалізації простого випадкового відбору користуються так званими таблицями випадкових чисел. Вони містять ті чи інші випадкові.цифри, отримані шляхом реалізації деякого фізичного випадкового процесу, У літературі наводяться різні послідовності випадкових чисел обсягом від кількох десятків до мільйона цифр (табл. 14).

Продемонструємо, як працювати з таблицею випадкових чисел, на гіпотетичному прикладі, коли із сукупності наперед пронумерованих 300 одиниць необхідно вибрати 7 одиниць спостереження. Оскільки N = 300 - тризначне число, а в табл. 14 дані п'ятизначні числа, будемо використовувати лише три останні цифри кожного числа.

Починаючи з першого числа, рухаючись рядком, отримаємо перший номер 97. Числа більше 300 пропускаємо і, продовжуючи цей процес далі, отримаємо ряд чисел: 296, 209, 13, 157, 147, 32.

Це і є номери одиниць спостереження, що потрапили у вибірку, що формується.

При організації безповторного відбору доводиться пропускати і числа (якщо вони трапляються), які зустрічаються вдруге у цьому ряду.

Починати процес вибору випадкових чисел можна з будь-якого місця таблиці і вести його в будь-якому напрямку (рядками, стовпцями тощо) або вибираючи тільки певні стовпці. Якщо наявні під рукою таблиці досить довгі, при вирішенні чергової завдання вибору рекомендується починати з місця таблиці.

Розрахунок характеристик простої випадкової вибірки.

Мета будь-якого вибіркового дослідження полягає в тому, щоб, сформувавши вибірку, зібрати за нею інформацію та на основі цієї інформації оцінити потрібні характеристики генеральної сукупності.

Найбільш поширеною у соціологічних дослідженнях завданням є оцінка середнього значення ознаки (або частки у разі якісної ознаки) у генеральній сукупності.

Проілюструємо на прикладі знаходження вибіркової оцінки середньогогенеральної сукупності. Припустимо, що оцінюється середня кількість газет і політичних журналів, виписуваних співробітниками деякого виробничого колективу. Розглянемо по порядку всі необхідні операції та їх результати.

Складається основа вибірки, т. е. список всіх одиниць відбору. Як така основа може бути взятий алфавітний список усіх співробітників, пронумерованих послідовно (табл. 15). З метою наочності разом із основою вибірки наводяться і всі справжні значення одиниць відбору, ще невідомі досліднику. Надалі зіставимо справжнє значення шуканого параметра та вибіркову оцінку.

Загальна сума газет і журналів, що виписуються, дорівнює 150. Середня кількість газет і журналів, що виписуються, на кожного співробітника дорівнює = 150/50 = 3.

Середнє квадратичне відхилення для генеральної сукупності дорівнює

Сума квадратів відхилень дорівнює 146 за умови, що одне значення квадрата відхилення, а саме від одиниці відбору 28, було виключено із суми. Це значення, що дорівнює 49, різко збільшує суму, будучи нетиповим для генеральної сукупності.

Проте середнє значення параметра, ні середнє квадратичне відхилення перед початком дослідження невідомі. В іншому випадку саме дослідження було б зайвим.

Природно припустити під час аналізу вищенаведеного прикладу, кожен респондент (одиниця відбору і одиниця спостереження) виписує кілька газет і часописів і що кількість газет і журналів не дуже сильно варіює (якби шляхом вибіркового дослідження потрібно було визначити, скажімо, обсяг особистих бібліотек, становище дослідника ускладнилося б). Виходячи з цих міркувань, вважаємо достатню вибірку, що складається з п'яти респондентів. Перевіритиправильність визначення обсягу вибірки можна лише після опрацювання результатів пілотажного дослідження.

Припустимо, що випадковий вибір із табл., 15 дав такі результати: обрані номери 18, 4, 28, 39, 22; вони відповідають значенням ознак 4, 0, 10, 4, 4.

Середня арифметична але вибірках =22/5 = 4,4, дисперсія

Таке значне відхилення від справжнього значення середньої пояснюється тим, що у вибірку потрапив респондент № 28, виключений за підрахунком дисперсії для генеральної сукупності як нетиповий. Однак при формуванні вибірки ще невідомо, що цей респондент нетиповий. Але сам факт, що середнє квадратичне відхилення наближається за величиною до середньої, має насторожити дослідників.

Для більшої наочності виразимо s у відсотках від середньої величини: (3,5:4,4) • 100%= 79%, тобто середнє відхилення значень ознаки від вибіркової середньої арифметичної величини «залишає 79%. У разі доцільно збільшити обсяг вибірки, наприклад, вдвічі. У результаті було відібрано номери: 44, 2, 12, 26, 14, 27, 35, 9, 8, 49; значення ознаки 5, 2, 4, б, 1-3,2,5,3, 4.

Середнє арифметичне – 3,6, дисперсія s 2 = 2,26, середнє квадратичне відхилення s = 1,5. Тепер воно становить приблизно 40% від середньої величини. При великих дисперсіях обсяг вибірки збільшують з урахуванням практичних можливостей доти, доки дисперсія не перестає зменшуватися. Подальше збільшення обсягу вибірки є недоцільним. Зазвичай дослідник приходить до деякого компромісного рішення щодо обсягу вибірки в залежності від необхідної точності, а також засобів і часу, які він має.

Зведення необхідних формул для простої випадкової вибірки.У розглянутомугіпотетичному прикладі легко було оцінити якість вибіркової оцінки середнього (перед очима була інформація дня про всю генеральну сукупність). Але як провести його оцінку в реальному дослідженні, коли є лише інформація, отримана з вибірки?

На допомогу приходить статистична теорія вибіркового методу. Вона дозволяє за умови реалізації випадкового відбору досягти принаймні наступних двох цілей:

1. За заданою апріорі необхідного ступеня точності висновків (формалізується за допомогою поняття довірчої ймовірності) знайти можливі інтервали, зміни генеральної характеристик; сукупності (довірчі інтервали). І навпаки, розрахувати довірчу можливість відхилення характеристики генеральної сукупності від вибіркової за заданою величиною довірчого інтервалу.

2. Знайти обсяг запланованої вибірки, що дозволяє досягти у межах необхідної точності розрахунку вибіркових характеристик необхідну довірчу ймовірність.

Дамо зведення необхідних досягнення цих цілей формул 3 . Щоб уміти застосовувати наведені формули під час планування вибірки в емпіричному соціологічному дослідженні, познайомимося дещо докладніше з основними поняттями вибіркового методу - «довірча ймовірність» і «довірчий інтервал».

Теоретико-імовірнісні теореми, висхідні до закону великих чисел, дозволяють з певною ймовірністю, що позначається (1-а), стверджувати, що для ознаки відхилення вибіркової середньої від генеральної, що вивчається, не перевищать деякої величини D, званої граничною помилкою вибірки.

В одному з формулювань це твердження записується так:

Сенс наведеного співвідношення такий: з довірчою ймовірністю (1-a) можна стверджувати, щогенеральне середнє лежить в інтервалі

який і називається довірчим інтервалом, а визначає як би ступінь довіри до даних, одержуваних за розрахованими за його допомогою вибірковими характеристиками. Звідси і назва а – рівень значущості.

Ухвалення того чи іншого рівня значущості, наприклад 5%-ного (a = 0,05), залежить від цілей даного соціологічного дослідження, вимог до ступеня гарантії його результатів. Соціолог повинен чітко розуміти, що, обравши, скажімо, рівень значущості, що дорівнює 5%, і, розрахувавши на основі його вибіркові характеристики, ми будемо стверджувати наявність деякого ефекту, який насправді може виявитися несправедливим приблизно у п'яти відсотках випадків.

Приклад.При обстеженні 900 осіб - осіб працездатного віку - визначено їхній середній вік. Для ймовірності (1 - a) = 0,90 необхідно знайти довірчий інтервал, в якому міститься генеральне середнє. Оскільки дисперсія ознаки невідома, оцінимо її за значенням розмаху для генеральної сукупності.

З цією метою скористаємося співвідношенням зв'язку середнього квадратичного відхилення з розмахом

справедливим у припущенні нормального характеру розподілу. Тут Хmax - Хmin - варіаційний розмах генеральної сукупності, а V - величина, яка залежить від обсягу вибірки, значення якої можна знайти в табл. 17.

Так як по всій генеральній сукупності верхня межа працездатності в СРСР - 60 років, а нижня - 16, тохmax- хmin=60—16 = 44, отже (дляп>100 — останній стовпець

табл. 17) отримаємо наближене значення середньоквадратичного відхилення s = 44:5 = 8,8.

РозмірZперебуває у табл. А програми при a/2.Таким чином, якщо 1 - a=0,9, то Z=1,64,

Підставляючи знайдені значенняМ таZвформулу граничної помилки, отримуємо D = ZM = 1,64 • 0,29 = 0,48.