Значимість регресійної моделі
КОРЕЛЯЦІЙНИЙ І РЕГРЕСИВНИЙ АНАЛІЗ.
АНАЛІЗ ПАРНИХ ВЗАЄМОЗВ'ЯЗКІВ
Основні поняття
• Зв'язок як синхронність (узгодженість) –кореляційний аналіз.
• Зв'язок як залежність (вплив) –регресійний аналіз (причинно-наслідкові зв'язки).
Основні поняття
• У регресійному аналізі одна з ознак залежить від іншої.
• Перша (залежна) ознака називається в регресійному аналізі результуючим, друга (незалежна) – факторною.
• Не завжди можна однозначно визначити, яка з ознак є незалежною, а яка – залежною. Часто зв'язок може розглядатися як двоспрямований.
Етапи аналізу
• Виявлення наявності взаємозв'язку між ознаками;
• Визначення форми зв'язку;
• Визначення сили (тісноти) та напряму зв'язку (dіявлення наявності зв'язку між ознаками, діаграми розсіювання)
• Визначення форми зв'язку
Оскільки найпростішою формою залежності в математиці є пряма, то в кореляційному та регресійному аналізі найбільш популярні лінійні моделі.
Однак іноді розташування точок на діаграмі розсіювання показує нелінійну залежність або взагалі відсутність зв'язку між ознаками.
Лінія регресії та рівняння регресії
Діаграма розсіювання
Лінія регресії
• Пряма лінія, що обчислюється за допомогою методу найменших квадратів, називається лінією регресії. Вона характеризується тим, що сума квадратів відстаней від точок на діаграмі до цієї лінії мінімальна (порівняно з усіма можливими лініями).
• Лінія регресії дає найкращий наближений опис лінійної залежності між двома змінними.
Рівняння парної лінійної регресії
• Як відомо, пряма лінія описується рівнянням виду:
де Y – результуючий ознака, X – факторний ознака, k та b – числові параметри рівняння.
• Коефіцієнт k у рівнянні регресії називається коефіцієнтом регресії.
Сенс коефіцієнта регресії
• У загальному випадку коефіцієнт регресії k показує, як у середньому зміниться результативна ознака (Y), якщо факторна ознака (X) збільшиться на одиницю.
Властивості коефіцієнта регресії
• Коефіцієнт регресії набуває будь-яких значень.
• Коефіцієнт регресії не симетричний, тобто. змінюється, якщо X та Y поміняти місцями.
• Одиницею виміру коефіцієнта регресії є відношення одиниці виміру Y до одиниці виміру X
• Коефіцієнт регресії змінюється при зміні одиниць вимірювання X та Y .
Приклад одиниці виміру коефіцієнта регресії
• У рівнянні Y = 87610 + 2984 X
Коефіцієнт регресії дорівнює 2984. У яких одиницях він вимірюється?
• Оскільки результативна ознака Y вимірюється, наприклад, у рублях, а факторна ознака X, наприклад, у кількості робітників (чол.), то коефіцієнт регресії вимірюється в рублях на людину (руб./чол.)
Порівняння коефіцієнтів кореляції та регресії
• Приймає значення від -1 до +1
• Показує силу зв'язку між ознаками
• Знак коефіцієнта говорить про напрям зв'язку
• Може приймати будь-які значення
• Прив'язаний до одиниць виміру обох ознак
• Показує структуру зв'язку між ознаками
• Знак коефіцієнта говорить про напрям зв'язку
МНОЖНА КОРРЕЛЯЦІЯ ТА РЕГРЕСІЯ
• Зазвичай на залежну зміннудіють відразу кілька факторів, серед яких важко виділити єдиний чи головний.
• При цьому фактори, що впливають на залежну змінну, зазвичай не є незалежними один від одного.
Приклад
• Рівняння парної регресії для залежності обсягу виробництва (Y) від числа робітників (X1) має вигляд:
Y = 87610+2984 X 1
• Якщо побудувати рівняння парної регресії залежно від обсягу виробництва ( Y ) від потужності двигунів ( X 2 ), отримаємо:
Y = 265 300 +299,7 X 2
Приклад
• Отже, дохід підприємства залежить одночасно від двох факторів виробництва – числа робітників та енергоозброєності, проте ці фактори самі не є незалежними один від одного.
• Тому сукупна залежність доходу від робочих та потужності двигунів не є простою сумою двох парних залежностей.
• Отже, не так, що сумарний вплив обох факторів можна записати у вигляді суми двох попередніх рівнянь:
Y = 3529 10 + 2984 X 1 + 299,7 X 2
Рівняння множинної лінійної регресії
Y = a + b 1 X 1 + b 2 X 2 +…+ b k X k
X 1 , X 2 , … , X k незалежні змінні (чинники);
b 1 , b 2 , … , b k відповідні їм коефіцієнти регресії
Значність регресійної моделі
• Якщо коефіцієнт множинної кореляції обчислено на основі вибіркових даних, то можливо, що його значення не відображає реального зв'язку між ознаками, а отримано в даній вибірці випадково (при цьому в генеральній сукупності ознаки є незалежними).
Значимість регресійної моделі
• В основі перевірки значущості регресії лежить ідея розкладання дисперсії (розкиду) результативної ознаки на факторну та залишкову дисперсію, тобто. пояснену (зарахунок незалежних факторів) частина дисперсії та частина, що залишилася непоясненою в рамках даної моделі.
Значимість регресійної моделі
• Мірою значущості регресії є значення т.зв. F-критерія - відношення факторної дисперсії до залишкової.
• Чим краща регресійна модель, тим вища частка факторної та нижча частка залишкової дисперсії.
Значимість регресійної моделі
• Для кожного значення F можна визначити відповідну ймовірність. Якщо значення цієї ймовірності менше прийнятого рівня значущості p або ймовірності помилки (у програмі Statistica це 5% або 0,05), гіпотеза про відсутність лінійного зв'язку між результативними та факторними ознаками відхиляється і регресія визнається значущою.