Визначення варіаційних рядів
31. Визначення варіаційних рядів. Графічне зображення варіаційних рядів
Операція, укладена в розташуванні значень ознаки не спадання, називається ранжуванням досвідчених даних.
Після операції ранжирування дослідні дані можна згрупувати так, щоб у кожній групі ознака набував те саме значення, яке називається варіантом (хi). Число елементів у кожній групі називається частотою варіанта (ni).
Розмахом вибірки називається число
де xmax – найбільший варіант, х min – найменший варіант.
Сума всіх частот дорівнює певному числу n, яке називається обсягом сукупності:
Ставлення частоти даного варіанту обсягу сукупності називається відносної частотою (pi) або частістю цього варіанта: pi=ni/n.
Послідовність варіантів, розташованих у зростаючому порядку, називається варіаційним рядом (варіація - зміна).
Варіаційні ряди бувають дискретними та безперервними. Дискретним варіаційним рядом називається ранжована послідовність варіант з відповідними частотами та (або) частостями.
Побудова дискретного варіаційного ряду недоцільно, якщо число значень ознаки велике або ознака є безперервним, тобто може набувати будь-яких значень в межах деякого інтервалу. І тут слід побудувати інтервальний варіаційний ряд. Для побудови такого ряду проміжок зміни ознаки розбивається на низку окремих інтервалів та підраховується кількість значень величини у кожному з них.
Вважатимемо, що окремі (часткові) інтервали мають ту саму довжину. Число інтервалів (k), у разі нормально розподіленої сукупності, можна визначити заформулою Стерджеса k=l+3,3221g n. або приблизно: k [6;12]. Довжина часткового інтервалу визначається за формулою
Графічне зображення варіаційних рядів.
Варіаційні ряди зображують графічно за допомогою полігону та гістограми.
Полігон частот - це ламана, відрізки якої з'єднують точки (x1; n1), (x2; n2). (Хk; nk).
Полігон відносних частот - це ламана, відрізки якої з'єднують точки
Гістограмою частот називається фігура, що складається з прямокутників з основою h та висотами ni. Для гістограми відносних частот як висота розглядають ni/n. Гістограма відносних частот є аналогом диференціальної функції випадкової величини.
Мал. Гістограма частот
32. Загальні моделі статистичного аналізу
Характеристика методів багатовимірного аналізу (компонентний аналіз, факторний аналіз, кластер-аналіз (класифікація без навчання). Дискримінантний аналіз (класифікація з навчанням. Канонічні кореляції. Множинний коваріаційний аналіз).
Реальні процеси залежать від параметрів, їх характеристик, тому виникає необхідність застосування заходів, методів статистичного аналізу.
Методи МСА слід розглядати як логічне продовження методів ТБ та МС. Принципова відмінність полягає в обліку більше трьох чинників.
Методи МСА базуються на поданні інформації в багатовимірному просторі і дозволяють визначити латентні зак-ти, що існують об'єктивно.
- моделювання та первинної обробки даних
- аналізу та побудови залежності
- класифікація та зниження залежності розмірності
33. Середня арифметична низка
Варіаційні ряди дозволяють отримати перше уявлення про розподіл, що вивчається. Далі необхідно досліджуватичислові характеристики розподілу (аналогічні характеристикам розподілу теорії ймовірностей): характеристики становища (середня арифметична, мода, медіана); характеристики розсіювання (дисперсія, середнє відхилення, коефіцієнт варіації); Показники міри скошеності (коефіцієнт асиметрії) і гостроверхості (ексцес) розподілу.
Середньої арифметичної (х) дискретного варіаційного ряду називається відношення суми творів варіантів на відповідні частоти до обсягу сукупності:
(3.2.1)
Модою (М * (Х)) дискретного варіаційного ряду називається варіант, що має найбільшу частоту.
Медіаною (М*(Х)) дискретного варіаційного ряду називається варіант, що ділить ряд на дві рівні частини. Якщо дискретний варіаційний ряд має 2n членів: x1, x2, . xn, xn+1, . x2n, то
Для інтервальних варіаційних рядів (з рівними інтервалами для медіани та моди) мають місце формули: а) медіани
де хМе - початок медіанного інтервалу, h - довжина часткового інтервалу, n - обсяг сукупності, SMe-i, - накопичена частота інтервалу, що передує медіанному, nМе -частота медіанного інтервалу;
де хМо-початок модального інтервалу, h -довжина часткового інтервалу, nмо - частота модального інтервалу, nМо-1 -частота передмодального інтервалу, nМо+1 - частота післямодального інтервалу;
в) середньої арифметичної, що збігається з формулою (3.2.1) для дискретного варіаційного ряду, причому як варіант хi приймаються середини відповідних інтервалів (інтервали можуть мати як однакову, так і різну довжину).
Мода і медіана використовуються як характеристики середнього положення у випадку, якщо межі ряду нечіткі або якщо ряд не симетричний.
34. Проблема розмірностей у багатовимірних методахдослідження
Метод МСА базується на поданні даних у багатовимірному ознаковому просторі розмірністю, що дорівнює кількості ознаки. У цьому дослідник часто стикається з поняттям розмірності.
У загальному випадку вивчається n-мірний евклідовий простір. При n>3 всі завдання вирішуються тільки логічно та алгебраїчно (n>>m) (m=2-3). І тому зазвичай намагаються знизити розмірність досліджуваного простору без видимих втрат інформації.
Основні причини початку виробництва меншої розмірності.
1. дублювання інформації
2. ненормативність ознак
3. можливість агрегування (простого чи зваженого підсумовування)
Основний мінус МСА: статистичні методи оцінювання та порівняння ґрунтуються тільки на багатовимірному нормальному законі розк-ня.
35. Введення в Excel
Табулювання – обчислення значень функцій при відомих значеннях аргументу.
БД – це практично будь-який набір даних. Створення баз даних полегшує обробку даних та його аналіз.
Угруповання – розбиття на групи, які відповідають певним критеріям
Фінансові (51 функція)
Дата та час (19 функцій)
Користувальницькі (11-при складних обчисленнях)
Статистичні (найбільша - 78)
Посилання та масиви
Інформаційні та ін.
За 200 років математиками, економістами, психологами було створено апарат ухвалення рішень, яких називається МС, а пізніше прикладною С або аналізом даних
Широкому впровадженню методів аналізу даних у 60-70гг. сприяла поява компонентів, причому якщо до середини 80г. Ці методи розглядалися як інструмент наукових досліджень, то тепер основними показниками стали компоненти організації тощо.
Пакет statistika версіяstat 5.5 українськомовна підтримка всіх архітектур документація 3000с.
1. іноді надто поверхневі
3. висока вартість
37. Дисперсія дискретного ряду
Дисперсія дискретного ряду розподілу:
характеризує середній квадрат відхилення х від х --- ,
Середнє квадратичне відхилення дискретного ряду розподілу:
виявляється у тих самих одиницях, як і хi.
характеризує відносне значення середнього квадратичного відхилення і зазвичай служить порівняння коливності непорівнянних показників.
Якщо об'єднуються кілька розподілів в один, то загальна дисперсія σ0* 2 нового розподілу дорівнює середньої арифметичної з дисперсій розподілів, що об'єднуються, складеної з дисперсією приватних середніх щодо загальної середньої нового розподілу:
де x0 - середня ариф-ка нового розподілу, xi - середня ариф-ка i-го приватного розподілу (I = 1, ..., k).
n - обсяг i-го приватного розподілу, хij - j-й член i-го приватного розподілу (j=l. ni; i=l,2. к), δ* 2 -
міжгрупова дисперсія, - σ* 2 - внутрішньогрупова дисперсія, N=∑ni - обсяг нового розподілу.
Значення - σ* 2 і δ* 2 визначаються за формулами
Дисперсія має важливу властивість, що полягає в тому, що
D * = (∑ (xi-d) 2 ni) / k приймає найменше значення при d = - x.
38. Моменти для варіаційних рядів у математичній статистиці знаходяться за формулами, аналогічними формулам (2.7.6), (2.7.7) (2.7.11), (2.10.3):
- Початковий момент s-го порядку,
- центральний момент s-го порядку.
- Основний момент s-го порядку
- Основний момент порядку s, h.
Співвідношення між початковими та центральними моментами в математичній статистиці відповідають формулам(2.7.8).
Sk*=