Визначення основних статистичних показників

Визначимо основні статистичні характеристики:

Mean- середня арифметична. Середнє значення випадкової величини є найбільш типовим, найбільш ймовірним її значенням, своєрідним центром, навколо якого розкидані всі значення ознаки.

Median- медіана - це таке значення випадкової величини, яке поділяє всі випадки вибірки на дві рівні за чисельністю частини, потрапляння в які мають рівні ймовірності. Геометричний зміст: вибірковою медіаною називається значення аргументу, яке поділяє гістограму щільності ймовірності на дві рівні частини.

Minimum, maximum- мінімальне та максимальне значення;

Standart Deviation– стандартне відхилення (або середнє квадратичне відхилення), є мірою мінливості ознаки. Воно свідчить про яку величину середньому відхиляються випадки від середнього значення ознаки. Особливо велике значення має щодо нормальних розподілів.

Soefficient of variation(Коефіцієнт варіації) - це відношення середнього квадратичного відхилення до середньої арифметичної, виражене у відсотках. Він застосовується для порівнянь коливання однієї й тієї ж ознаки в кількох сукупностях з різним середнім арифметичним.

p align="justify"> Коефіцієнт варіації використовують не тільки для порівняльної оцінки одиниць сукупності, але і також для характеристики однорідності сукупності. Сукупність вважається однорідною, якщо коефіцієнт варіації вбирається у 33%.

Skewness– асиметрія, що характеризує ступінь зміщення варіаційного ряду щодо середнього значення за величиною та напрямком. У симетричній кривій коефіцієнт асиметрії дорівнює нулю. Якщо права гілка кривої, починаючивід вершини, більше лівої, то правостороння асиметрія та коефіцієнт асиметрії більше нуля. Лівостороння асиметрія – навпаки, тоді коефіцієнт асиметрії менший за нуль. Асиметрія менше 0.5 вважається малою

Kurtosis– ексцес, що характеризує ступінь концентрації випадків навколо середнього значення та є своєрідним заходом крутості кривої. У кривій нормального розподілу ексцес дорівнює нулю. Якщо ексцес більше нуля, то крива розподілу характеризується гостроверхістю, тобто. є більш крутою порівняно з нормальною. При негативному ексцесі крива більш плосковершинной, тобто. більш пологою порівняно з нормальним розподілом. Негативною межею величини ексцесу є число -2, позитивної межі – немає.

визначення

З даних рис.11 і рис.12 можна сказати таке:

- асиметрія лежить у діапазоні [-0.6;0.6], що говорить про симетричність графіків та незначну асиметрію;

- ексцес для першого класу переважно більше 0, отже вершина графіка гостріша, ніж у графіка нормального розподілу. А для другого класу нижче 0, що говорить про плосковершинність графіка.

- Використання коефіцієнта варіації має сенс щодо варіації ознаки, приймає лише позитивні значення, проте за отриманими даними можна сказати про неоднорідності вибірок.

- Зі стандартного відхилення видно, що найбільш сильної мінливості схильні ознаки даних 1-го класу, що діагностується, а саме Х1, Х2, Х4.

Про нормальність розподілу можна судити за графіком на нормаль-

Ному ймовірному папері. Його легко побудувати за допомогою опції Normal

probability plots вікна "Descriptive statistics" (рис.4). Чим ближче розподілдо

нормального вигляду, тим краще значення лягають на пряму лінію (рис. 7).

Цей метод оцінки є фактично окомірним. У сумнівних випадках

Перевірку на нормальність можна продовжити з використанням спеціальних

Статистичних критеріїв (Колмогорова-Смирнова, Омега-квадрат (w )

До детальної перевірки гіпотези про нормальність вибірки вимагає досить

Спостережень).

Чим ближче розподіл до нормального вигляду, тим краще

Симих змінних. Залишки мають бути нормально розподілені, тобто.

На графіку вони повинні представляти приблизно горизонтальну смугу

Одинакової ширини на всьому її протязі. Коефіцієнт кореляції (r) між-

ду регресійними залишками та змінними повинен дорівнювати нулю. У нашому випадку на графіках залишків (рис. 42) добре проглядається

Нелінійний тренд, що викликає сумнів щодо адекватності моделі. Присут-

Віє нелінійного тренду в регресійних залишках говорить про необхідність

Перегляду моделі

статистичних

рис.1 Графік на нормальному ймовірнісному папері X1

визначення

рис.1 Графік на нормальному ймовірнісному папері X2

визначення

рис.1 Графік на нормальному ймовірнісному папері X3

статистичних

рис.1 Графік на нормальному ймовірнісному папері X4

статистичних

рис.1 Графік на нормальному ймовірнісному папері X11

основних

рис.1 Графік на нормальному ймовірнісному папері X22

статистичних

рис.1 Графік на нормальному ймовірнісному папері X33

статистичних

рис.1 Графік на нормальному ймовірнісному папері X44

На рис.4ми бачимо що відбувається відхилення від нормального розподілу та данірозташовуються хвилеподібно від прямого нормального розподілу, до даних необхідно застосувати перетворення. Графік дозволяє зробити припущення про неприпустимість опису даних за допомогою нормального розподілу.

визначення

Рис.1 Кореляційна матриця

Проте роль викидів для набору незалежних змінних часто не береться до уваги. З боку незалежних змінних, є список змінних, що бере участь з різними вагами (регресійні коефіцієнти) у передбаченні залежною змінною. Незалежні змінні можна собі у вигляді точок деякого багатовимірного простору, у якому може розташовуватися кожне спостереження. Наприклад, якщо ви маєте дві незалежні змінні з рівними регресійними коефіцієнтами, то можна побудувати діаграму розсіювання цих двох змінних і розмістити кожне спостереження на цьому графіку. Ви можете намалювати точку середніх значень обох змінних і обчислити відстані від кожного спостереження до цього середнього (називається тепер центроїдом) у цьому двовимірному просторі; у цьому полягає концептуальна ідея, що стоїть за обчисленням відстаней Махаланобісу. Тепер подивимося на ці відстані, відсортовані за величиною, з метою ідентифікації екстремальних спостережень щодо незалежних змінних. У полі Тип викидів позначте опцію відстаней Махаланобіса та натисніть кнопку Порядковий графік викидів. Отриманий графік показує відстані Махаланобіса, відсортовані в порядку зменшення.

статистичних

статистичних

В інформаційній частині вікна результатів Wilks' Lambda – значення лямбди Вілкса. Значення лямбди Вілкса лежить в інтервалі [0, 1]. Значення близьке до 0 говорить про хорошу дискримінацію (як у прикладі

статистичних

Таблиця з квадратами відстані Махаланобіса від точок до центрівгруп дозволяє визначити, до якої групи належить випадок. Випадок відноситься до групи, до якої відстань Махаланобіса мінімальна. Зірочками позначені випадки, класифікація яких неправильна