Введення у кореляційний аналіз

Зв'язок, що існує між випадковими величинами різної природи, наприклад, між величиною Х та величиною Y, не обов'язково є наслідком прямої залежності однієї величини від іншої (так званий функціональний зв'язок). У деяких випадках обидві величини залежать від цілої сукупності різних факторів, загальних для обох величин, у результаті формується пов'язані один з одним закономірності. Коли зв'язок між випадковими величинами виявлено за допомогою статистики, ми не можемо стверджувати, що виявили причину зміни параметрів, скоріше ми лише побачили два взаємопов'язані слідства.

Взаємний зв'язок двох випадкових величин називається кореляцією, кореляційний аналіз дозволяє визначити наявність такого зв'язку, оцінити, наскільки тісний і суттєвий цей зв'язок. Усе це виражається кількісно.

Як визначити, чи є кореляція між величинами? У більшості випадків це можна побачити на звичайному графіку. Наприклад, по кожній дитині з нашої вибірки можна визначити величину Х i (кількість сторінок) та Yi (середній бал річної оцінки), і записати ці дані у вигляді таблиці. Побудувати осі Х та Y, а потім нанести на графік весь ряд точок таким чином, щоб кожна з них мала певну пару координат (Х i , Yi) з нашої таблиці. Оскільки ми в даному випадку важко визначити, що можна вважати причиною, а що наслідком, не важливо, яка вісь буде вертикальною, а яка горизонтальною.

введення

б)

аналіз

кореляції

Якщо графік має вигляд а), то це говорить про наявність прямої кореляції, у разі, якщо він має вигляд б) - кореляція зворотна. Відсутність кореляції також можна приблизно визначити на виглядграфіка – це випадок в).

За допомогою коефіцієнта кореляції можна порахувати, наскільки тісний зв'язок існує між величинами.

Нехай існує кореляція між ціною і попитом на товар. Кількість куплених одиниць товару в залежності від ціни у різних продавців показано у таблиці:

Видно, що ми маємо справу зі зворотною кореляцією. Для кількісної оцінки тісноти зв'язку використовують коефіцієнт кореляції:

Коефіцієнт r ми вважаємо в Excel, з допомогою функції fx, далі статистичні функції, функція КОРРЕЛ. За підказкою програми вводимо мишею у два відповідні поля два різні масиви (Х та Y). У разі коефіцієнт кореляції вийшов r= - 0,988. Слід зазначити, що що ближче до 0 коефіцієнт кореляції, то слабкіший зв'язок між величинами. Найбільш тісний зв'язок при прямій кореляції відповідає коефіцієнту r, близькому +1. У нашому випадку кореляція зворотна, але теж дуже тісна, і коефіцієнт близький до -1.

Що можна сказати про випадкові величини, у яких коефіцієнт має проміжне значення? Наприклад, якби ми отримали r=0,65. У цьому випадку статистика дозволяє сказати, що дві випадкові величини частково пов'язані один з одним. Скажімо на 65% впливом геть кількість покупок надавала ціна, але в 35% - інші обставини.

І ще одну важливу обставину треба згадати. Оскільки ми говоримо про випадкові величини, завжди існує ймовірність, що помічений нами зв'язок - випадкова обставина. Причому можливість знайти зв'язок там, де його немає, особливо велика тоді, коли точок у вибірці мало, а при оцінці Ви не побудували графік, а просто порахували значення коефіцієнта кореляції на комп'ютері. Так, якщо ми залишимо всього дві різні точки в будь-якій довільній вибірці,коефіцієнт кореляції дорівнюватиме або +1 або -1. Зі шкільного курсу геометрії ми знаємо, що через дві точки можна завжди провести пряму лінію. Для оцінки статистичної достовірності факту виявленого Вами зв'язку корисно використовувати так звану кореляційну поправку:

Зв'язок не можна вважати випадковим, якщо:

У той час як завдання кореляційного аналізу - встановити, чи є дані випадкові величини взаємопов'язаними, мета регресійного аналізу - описати цей зв'язок аналітичною залежністю, тобто. за допомогою рівняння. Ми розглянемо найпростіший випадок, коли зв'язок між точками на графіку може бути представлений прямою лінією. Рівняння цієї прямої лінії Y=аХ+b, де a= Y порівн.-bХср.,

Знаючи рівняння прямої, ми можемо знаходити значення функції значення аргументу в тих точках, де значення Х відомо, а Y - ні. Ці оцінки бувають дуже потрібні, але вони повинні використовуватися обережно, особливо якщо зв'язок між величинами не занадто тісний.

Зазначимо також, що зі зіставлення формул для b і r видно, що коефіцієнт не дає значення нахилу прямої, а лише показує сам факт наявності зв'язку.