Дисципліна Системи статистичного аналізу даних Лабораторна робота №2 Управління даними

У процесі роботи вам знадобляться перетворені дані, які є результатом деяких дій над вихідними даними файлу. Наприклад. Іноді бажано впорядкувати дані файлу за якоюсь ознакою. Нерідко виникає необхідність обробки не всіх даних файлу, а лише їх підмножини, що виділяється за певними критеріями.

1. Реалізація у системі spss

Обробка пропущених і різко виділяються (аномальних) значень

У процесі роботи з програмою SPSS ви нерідко стикатиметеся з проблемою відсутніх даних. Звернемося до змінних із прикладу. Цілком імовірною є ситуація, коли хтось із учасників програми був відсутній під час проведення тестування або не відповів на запитання про свій вік, або не вказав кількість повних родичів у сім'ї. Подібні випадки призводять до того, що дані робочого файлу з'являються пропущені значення. Пропущені значення як заважають осмислювати дані, а й можуть надавати небажане впливом геть результати аналізу.

Деякі статистичні процедури ігнорують об'єкти (рядки), де міститься хоча б одне пропущене значення. Якщо, наприклад, з 35 спостережень 13 мають пропущені значення з різних змінним, то аналізу підлягатиме трохи більше 60 % даних файлу, що, безсумнівно, спотворить результати.

Більшість статистичних методів SPSS дозволяє враховувати пропуски даних двома принципово різними способами:построчно (listwise)іпопарно (pairwise). При устроковому обліку перепусток SPSS перед виконанням операції перевіряє рядки (об'єкти) на наявність пропущених значень і у разі виявлення останніх виключає відповіднірядки з аналізу цілком.

Цей спосіб дозволяє отримати найкоректніші статистичні результати, проте втрати даних при цьому максимальні. При попарному обліку перепусток обробка виконується без додаткових перевірок, і у процесі обчислень не виконуються ті операції, які вимагають наявності пропущеного значення. Таким чином, в аналізі беруть участь усі введені дані, але результати аналізу містять похибки.

Для номінальної змінної проблема пропущених значень вирішується легко: ви можете просто ввести для неї ще одну градацію, яка відповідає пропуску даних. Для кількісної змінної (метричної або порядкової), що має безліч можливих значень, у SPSS передбачені спеціальні процедури заповнення перепусток:

у меню Перетворити є команда Замінити пропущені значення. При всій спокусі її слід пам'ятати, що результати обробки даних із заміною перепусток фіктивними значеннями, наприклад середніми, навряд чи можуть викликати довіру. Тому краще на місці пропуску чесно залишати порожній осередок. А питання про построковий або попарний облік перепусток вирішувати окремо для кожного конкретного методу аналізу даних.

Якщо у певних випадках у змінних відсутні значення, наприклад, якщо на запитання не було надано відповіді, відповідь невідома, або існують інші причини, користувач може за допомогою кнопки Missing оголосити ці значення як пропущені. Пропущені значення можна виключити із наступних обчислень.

У прикладі пропущеним значенням, що визначається користувачем, ми надається варіант відповіді "0" (немає даних) для змінної sex.

Щоб задати пропущені значення, потрібно натиснути на поле Missing на кнопці з трьома точками . Відкриється діалогове вікно Define MissingValues (Визначення пропущених значень).

За замовчуванням пропонується варіантNo missing values (Немає пропущених значень),тобто всі значення в даний час розглядаються як допустимі.

Для завдання пропущених значень потрібно клікнути на кнопціDiscrete missing values (Окремі пропущені значення).Для однієї змінної можна задати до трьох пропущених значень.

Альтернативний варіант: при виборі кнопкиRange and one optional Discrete missing value (Діапазон та одиничне відсутнє значення),при цьому всі значення в діапазоні відMinimum (Найменше значення)доMaximum (Найбільше значення)включно оголошуються як пропущені. Крім того, можна оголосити як відсутнє ще одне значення поза цим діапазоном. Для однієї змінної можна задати до трьох пропущених користувацьких значень.

Ввести для змінної sex значення "0". Поділася відповідні дії для всіх змінних, які містять пропущені значення.

На жаль, при збиранні даних, як правило, не вдається уникнути пропущених значень. У багатьох статистичних методах, перш за все одномірних, облік пропущених значень не становить проблеми, оскільки, крім відповідного зменшення кількості спостережень, не потрібно вносити додаткових змін до розрахункового методу. Однак при двовимірному, а тим більше при багатовимірному аналізі, пропущені значення в списках змінних створюють більш значні проблеми, оскільки одного-єдиного відсутнього значення достатньо, щоб зробити всю вибірку непридатною для аналізу.

Аналіз пропущених значень

Процедура Аналіз пропущених значень виконує три основні функції:

Описує структурупропущених даних. Де розташовані пропущені значення? Наскільки широку область вони охоплюють? Чи є тенденція до пропуску значень у кількох спостереженнях у пар змінних? Чи набувають ці крайні значення? Чи носять перепустки випадковий характер?

Оцінює середні, середньоквадратичні відхилення, коваріації та кореляції для різних методів обробки пропущених значень: за списками, попарно, регресія або ЗМЗ (максимізація очікувань). Попарний метод виводить частоти повних пар спостережень.

Здійснює вставку (імпутацію) на місце пропущених значень оціночних значень, використовуючи метод регресії або ЗМЗ (максимізація очікувань); втім, є метод, який зазвичай дає точніші результати - це множинна імпутація.

Аналіз пропущених значень допомагає у боротьбі з низкою серйозних проблем, що породжуються неповнотою даних. Якщо спостереження з пропущеними значеннями мають систематичні відмінності від спостережень без пропущених значень, результати можуть вводити в оману. Крім того, пропущені дані можуть знизити точність розрахованої статистики, оскільки інформації виявиться меншою, ніж планувалося. У багатьох статистичних процедурах мається на увазі, що аналіз грунтується на повних спостереженнях, а обліку відсутніх значень потрібна складніша теорія.

Статистика. Одновимірна статистика, включаючи число непропущених значень, середнє, середньоквадратичне відхилення, число пропущених значень та кількість крайніх значень. Оцінки середнього, коварійні матриці та матриці кореляції, отримані обліковим методом, попарно, методом ЗМП або регресією. Критерій Літтла MCAR з результатами ЗМЗ. Зведення середніх за різними методами. Для груп, визначених співвідношення пропущених і непропущених значень: t-критерії. Для всіхзмінних: структури пропущених значень, виведені як спостереження за змінними.

Щоб виконати аналіз пропущених значень

Виберіть у менюАналіз(Analyze)>Аналіз пропущених значень (MissingValueAnalysis).Виберіть хоча б одну кількісну змінну з метою оцінки статистики і, якщо потрібно, імпутації пропущених значень.

Для того, щоб визначити різко виділяються (аномальні значення), необхідно побудувати коробчасту діаграму (Graphs–LegacyDialogs-Boxplot) і графічно визначити значення, що виділяються (і їх наявність взагалі). Якщо в ході аналізу були виявлені значення, що різко виділяються, і було прийнято рішення їх видалити, то видалення здійснюється в ручну.

Відбір даних - це вибір спостережень за певними критеріями; Так, наприклад, при опитуванні респондентів можна відібрати тільки чоловіків, постом не менше 180 см. Після цього всі обчислення можна проводити тільки з цими відібраними спостереженнями.

Для відбору даних у SPSS існує три важливі можливості:

вибір спостережень за певною умовою (логічним виразом);

вилучення випадкової вибірки спостережень із файлу даних;

поділ спостережень на групи відповідно до значень однієї або декількох змінних.