Багатомірні статистичні методи аналізу даних у задачах прикладного дослідження 5 1 основні
Глава 5. БАГАТОМІРНІ СТАТИСТИЧНІ МЕТОДИ АНАЛІЗУ ДАНИХ У ЗАВДАННЯХ ПРИКЛАДНОГО ДОСЛІДЖЕННЯ
5.1. Основні положення факторного аналізу
З початку XX ст. інтенсивно розвивається особлива сфера статистичних досліджень, звана факторним аналізом. Розвиток цього напряму почався у психології та з ініціативи психологів. Авторами основних концепцій факторного аналізу є головним чином американські та англійські вчені (Ч. Спірмен, Л. Л. Терстоун, Г. Х. Томсон, С. Л. Барт, Р. Б. Кеттел).
Основне припущення факторного аналізу можна сформулювати наступним чином: явища у певній галузі досліджень, незважаючи на свою різнорідність та мінливість, можуть бути описані відносно невеликою кількістю функціональних одиниць, параметрів або факторів. Факторний аналіз не визнає довільних рішень про важливість тих чи інших змінних для цієї галузі досліджень. Більше того, він не обмежується твердженням, що зміна однієї змінної пов'язана або не пов'язана зі зміною іншої, а йде далі, намагаючись визначити міру зв'язку. При цьому найголовніше полягає в тому, що він не обмежується зіставленням змін, що лежать на поверхні явищ, а прагне виявити основні впливи, що лежать в основі цих змін [21].
Дослідження починається зі збору спостережень про зміну деякого набору змінних. Далі розраховуються всі можливі кореляції між спостереженими змінними визначення, чи існує з-поміж них взаємозв'язок і який її міра. Використовуючи кореляційний аналіз, дослідник намагається виявити взаємозв'язок досліджуваних ознак, що, своєю чергою, дає можливість виділити повний і безнадмірний набірознак шляхом об'єднання сильно корелюючих ознак.
На основі отриманих коефіцієнтів кореляції проводиться факторний аналіз, який дозволяє виявити нові латентні змінні, які є лінійними комбінаціями колишніх і передають більшу частину інформації, укладеної в початкових спостереженнях.
Принаймні, потрібно усвідомити, що, з одного боку, ми маємо справу з певною концепцією, яка прагне пояснити знайдені кореляції за допомогою загальних факторів, а з іншого боку, необхідно враховувати, що можливості достатньо точного та однозначного виділення цих факторів за допомогою математики обмежені.
При вирішенні завдань факторного аналізу дослідник зазвичай робить три кроки. Їх можна позначити як:
підготовка відповідної кореляційної матриці;
виділення початкових (ортогональних) факторів;
обертання матриці початкових чинників з одержання остаточного рішення.
Основна модель факторного аналізу записується наступною системою рівностей [13]:



Тобто вважається, що значення кожної ознаки можуть бути виражені сумою простих факторів, кількість яких менше числа вихідних ознак, і залишковим членомiз дисперсією2 (i), що діє тільки наxi, який називаютьспецифічним фактором.
Коефіцієнтиlijназиваютьсянавантаженнямi-ї змінної наj-й фактор або навантаженнямj-го фактора наi-ю змінну. У найпростішій моделі факторного аналізу вважається, що факториfiвзаємно незалежні та їх дисперсії дорівнюють одиниці, а випадкові величиниi тежнезалежні один від одного і від будь-якого фактораfj. Максимально можлива кількість факторівmпри заданій кількості ознакpвизначається нерівністю
, (5.2)
яке має виконуватися, щоб завдання не вироджувалось у тривіальну. Ця нерівність виходить на підставі підрахунку ступенів свободи, що є в задачі [17].
Суму квадратів навантажень у виразі (5.1) називаютьспільністювідповідної ознакиxi, і чим більше це значення, тим краще описується ознакаxiфакторамиfj. Спільність є частиною дисперсії ознаки, яку пояснюють чинники. У свою чергу,

дисперсія ознаки = спільність(


Основне співвідношення факторного аналізу показує, що коефіцієнт кореляції будь-яких двох ознакxiіxjможна виразити сумою добутку навантажень некорельованих факторів
. (5.4)
Процес виділення чинників починається із складання матриці коефіцієнтів кореляції. Мета полягає в переході від редукованої матриці кореляцій (елементами головної діагоналі є спільності) до редукованої факторної матриці, яка дозволить визначити: 1) скільки загальних факторів необхідно для відображення всіх кореляцій між змінними та 2) які навантаження кожного фактора для різних змінних.
Завдання факторного аналізу не можна вирішити однозначно.Рівності (5.1) не піддаються безпосередньої перевірці, оскільки вихідних ознак задається через (p+m) інших змінних - простих і специфічних факторів. Тому уявлення кореляційної матриці факторами, або, як то кажуть, факторизацію, можна зробити нескінченно більшим числом способів. Якщо вдалося зробити факторизацію кореляційної матриці за допомогою деякої матриці факторних навантажень F, будь-яке лінійне ортогональне перетворення F (ортогональне обертання) призведе до такої ж факторизації [12].
Існуючі програми обчислення навантажень починають працювати зm= 1 (однофакторна модель) [12]. Потім перевіряється, наскільки кореляційна матриця, відновлена за однофакторною моделлю відповідно до основного співвідношення факторного аналізу (5.4), відрізняється від кореляційної матриці вихідних даних. Якщо однофакторна модель визнається незадовільною, то випробовується модель зm= 2 і так далі доти, поки при деякомуmне буде досягнута адекватність або кількість факторів моделі не перевищить максимально допустиме. У разі говорять, що адекватної моделі факторного аналізу немає [12].
Якщо адекватна факторна модель існує, то здійснюється обертання отриманої системи загальних факторів, оскільки значення факторних навантажень і навантажень на фактори є лише одним із можливих рішень моделі (5.1). Обертання факторів може здійснюватися різними способами. Найчастіше це обертання здійснюється таким чином, щоб якомога більше факторних навантажень стало нулями, і кожен фактор по можливості описував групу сильно корелюваних ознак. Також можна обертати фактори доти, доки не вийдуть результати, що піддаються змістовній.інтерпретації. Можна, наприклад, вимагати, щоб один фактор був навантажений переважно ознаками одного типу, а інший ознаками іншого типу. Або, скажімо, можна вимагати, щоб зникли якісь важко інтерпретовані навантаження з негативними знаками. Нерідко дослідники йдуть далі і розглядають прямокутну систему факторів як окремий випадок косокутної, тобто заради утримання жертвують умовою некорелюваності факторів.
На завершення всієї процедури факторного аналізу за допомогою математичних перетворень виражають фактори через вихідні ознаки, тобто отримують у явному вигляді параметри лінійної діагностичної моделі.
Якщо при факторному аналізі ознак шукаються групи близьких (корелювання) ознак на основі кореляційної матриці, то для транспонованих даних (таблиця експериментальних даних повертається на 90 °) аналогом кореляційної матриці є матриця, що описує попарні коефіцієнти кореляції (подібності) об'єктів. Вона вводиться в алгоритм формального факторного аналізу, і в результаті виходять фактори, що описують не групи корельованих ознак, а групи подібних об'єктів [2]. Особливості даної процедури докладно розглянуті у [1].
Відома велика кількість методів факторного аналізу (ротацій, максимальної правдоподібності та ін.). Нерідко в тому самому пакеті програм аналізу даних реалізовано відразу кілька версій таких методів і в дослідників виникає правомірне питання у тому, який їх краще. В. В. Александров [2] доводить, що практично всі методи дають дуже близькі результати. Подібні висновки зроблено і одним із основоположників сучасного факторного аналізу Г. Харманом: «У жодній із робіт не було показано, що якийсь одинметод наближається до «істинних» значень спільностей краще, ніж інші методи. Вибір серед групи методів «найкращого» проводиться в основному з точки зору обчислювальних зручностей, а також схильностей і прихильностей дослідника, якому той чи інший метод видавався більш адекватним уявленням про спільність» [30].
У факторного аналізу є багато прихильників та багато опонентів. Але, як слушно зауважив В. В. Налімов: «. У психологів та соціологів не залишалося інших шляхів, і вони вивчили факторний аналіз з усією ґрунтовністю» [24]. Для більш докладного ознайомлення з факторним аналізом та його методами може бути рекомендована література [1, 12, 13, 17, 20, 21, 29, 30].
5.2. Комп'ютерна обробка даних під час проведення
факторного аналізу
В останні десятиліття інтерес до факторного аналізу спалахнув із новою силою. Це пов'язано з бурхливим розвитком обчислювальної техніки, без застосування якої використання методу факторного аналізу є надто трудомістким процесом. (Докладно процедуру «ручного» розрахунку факторів викладено в [13, 21].) На сьогоднішній день метод факторного аналізу входить до складу практично всіх статистичних пакетів (наприклад,SPSS,STATGRAPHICS,STATISTICA).
У табл. 5.1 наведено способи активізації факторного аналізу.
Сзасоби активізації факторного аналізу у статистичних пакетах