Статистичні показники моделі простої лінійної регресії

(нотатки) Для лінійного регресійного аналізу потрібна лінійність лише за параметрами, оскільки нелінійність за змінними може бути усунена за допомогою зміни визначень. Стандартна помилка коефіцієнта множинної регресії є оцінкою стандартного відхилення розподілу коефіцієнта регресії навколо його істинного значення. Використовують стандартизовані регресійні коефіцієнти, тобто. Перш, ніж будувати модель, все Х стандартизуються, отже, всі коефіцієнти стають порівнянними між собою. Плюс – міряють силу впливу, мінус – не вирішують завдання змістовного змісту. МНК працює навіть у разі рівномірного розподілу точок. Перевірка гіпотез: нульова - дана пряма не бере на себе ніскільки дисперсії вихідних точок (прямої регресії немає, немає впливу Х на Y), загальна - є сукупний вплив Х на Y. гіпотези.

Розглянемо реалізацію лінійної регресії у SPSS.

регресійні коефіцієнти (regression coefficients)

оцінки (estimates)- включає регресійні коефіцієнти та пов'язані з ними заходи.
довірчі інтервали (confidence intervals)- 95% довірчі інтервали для регресійних коефіцієнтів.
ковариаційна матриця (covariance matrix)- коваріаційна та кореляційна матриці. У коваріаційній матриці на діагоналі – дисперсія.
тест Дарбіна-Уотсона (Durbin-Watson)- тест для послідовних кореляцій залишків, а також сумарна статистика для залишків та передбачених значень. Якщо значення статистики дорівнює 2, то третя умова Гаусса-Маркова не порушується. Якщо 2 - то негативнаавтокореляція.
діагностика (casewise diagnostic)- "викиди" за n стандартних відхилень.
якість моделі (model fit)– коефіцієнт множинної кореляції R, коефіцієнт детермінації (раніше розглядався як основний індикатор успіху в специфікації моделі, але визнання того факту, що навіть погана модель може дати високий коефіцієнт детермінації, призвело до зниження значимості коефіцієнта), скоригований R-квадрат (коефіцієнт детермінації при додаванні пояснюючої змінної ніколи не зменшується, скоригований коефіцієнт забезпечує компенсацію для такого автоматичного зсуву вгору шляхом накладання «штрафу» за збільшення кількості незалежних змінних, збільшення скоригованого коефіцієнта при додаванні нової змінної не обов'язково означає, що її коефіцієнт значно відрізняється від нуля), стандартна помилка, ANOVA – число ступенів свободи, сума квадратів, середній квадрат, F-значення, очікувана ймовірність F. F-статистика використовується для перевірки нульової гіпотези про те. що змінна, що додається, не дає значного приросту R-квадрату. t-статистика перевіряє гіпотезу: немає лінійного зв'язку між залежною та незалежними змінними, або що коефіцієнти регресії дорівнюють нулю.
зміна коефіцієнта детермінації (R squared change)– зміна у R квадраті при додаванні та витягуванні з моделі незалежних змінних. Якщо зміна, пов'язана зі змінною велика, змінна добре вписується в модель.
описова статистика (descriptives)– середні, стандартне відхилення, кореляційна матриця.
приватна та часткова кореляція (part and partial correlation)
діагностика колінеарності (collinearity diagnostic)– стійкість окремих змінних тастатистики визначення проблем з коллинеарностью. Колінеарність – небажана ситуація, коли одна незалежна змінна в моделі є лінійною функцією інших незалежних змінних. Власні числа (eigenvalues) – показують, скільки існує незалежних векторів у просторі. Якщо існує власне значення дуже близьке до нуля, має місце залежність. Тому невеликі зміни даних можуть призвести до великих змін в оцінках регресійних коефіцієнтів. Індекс стану (condition index) – квадратний корінь із відношення більшого свого числа до наступного. Якщо більше 15, то можливі проблеми з колінеарністю, якщо більше 30 – дуже великі проблеми з коллінеарністю. Пропорція дисперсії (variance proportion) – пропорція дисперсії оцінки, пояснена кожною компонентою, що з кожним власним значенням. Колінеарність – проблема, коли компонента, пов'язана з великим індексом стану, робить істотний внесок у дисперсію двох або більше змінних.

передбачені значення (predicted values)

нестандартизовані (unstandardized)– значення, передбачене моделлю для залежної змінної.
стандартизовані (standardized)– перетворення передбаченого значення у стандартну форму (мінус математичне очікування, поділити на стандартне відхилення).
скориговані (adjusted)– передбачене значення для цього випадку, коли цей випадок виключався з обчислення регресійних коефіцієнтів.
стандартна помилка середніх передбачень (S.E. of mean predictions)– оцінка стандартного відхилення від середнього значення залежної змінної для випадків, які мають однакове значення незалежних змінних.
відстань Махаланобіса(Mahalonobis)- відмінність незалежних змінних від середнього по всіх випадках. Якщо значення дуже велике, має місце випадок з екстремальними значеннями якихось незалежних змінних.
відстань Кука (Cook's)– міра того, як сильно залишки для всіх випадків зміняться, якщо окремий випадок виключити з обчислення регресійних коефіцієнтів.
(leverage value)– міра впливу точки на якість моделі. Змінюється від нуля (немає впливу) до (N-1)/N.

передбачені інтервали (prediction intervals)

середні (mean)– верхня та нижня межі для передбаченого інтервалу середнього передбачення відгуку.
індивідуальні (individual) –верхня та нижня межі інтервалу залежною змінною для окремого випадку.
студентизовані (studentized)– залишки, поділені на оцінку стандартного відхилення, що відрізняється від випадку до випадку, залежно від відстані значень незалежних змінних від середнього до незалежних змінних.
віддалені (deleted)– залишки, коли випадок було видалено при обчисленні регресійних коефіцієнтів. Різниця між значенням залежної змінної та скоригованим передбаченим значенням.
студентизовані віддалені (studentized deleted)– віддалені залишки, поділені на стандартну помилку.

статистика впливу (influence statistics)

зміна значень бета (DfBeta(s))– зміна у регресійних коефіцієнтах через видалення окремого випадку при обчисленні регресійних коефіцієнтів. Вважається всім параметрів, включаючи константу.
стандартизована зміна значень бета (standardized DfBeta(s))
зміна якості моделі (DfFit)– зміна якості моделі черезвидалення окремого випадку при обчисленні регресійних коефіцієнтів
стандартизована зміна якості моделі (standardized DfFit)
коваріаційне відношення (covariance ratio)- відношення визначника коваріаційної матриці, отриманої при видаленні окремого випадку при обчисленні регресійних коефіцієнтів, до визначника матриці з усіма випадками. Якщо відношення близьке до одиниці, то випадок не сильно змінює матрицю коваріації.

Є мітки включення константи до рівняння, завдання критичних значень F-статистики, різні графіки.