Прикладна статистика Деякі типові завдання прикладної статистики та методи їх вирішення

Частина 1. Фундамент прикладної статистики

1.2.6. Деякі типові завдання прикладної статистики та методи їх вирішення

Статистичні дані та прикладна статистика.Під прикладною статистикою розуміють частину математичної статистики, присвячену методам обробки реальних статистичних даних, а також відповідне математичне та програмне забезпечення. Таким чином, суто математичні завдання не включають до прикладної статистики.

Під статистичними даними розуміють числові або нечислові значення контрольованих параметрів (ознак) досліджуваних об'єктів, які отримані в результаті спостережень (вимірювань, аналізів, випробувань, дослідів тощо) певної кількості ознак у кожної одиниці, що увійшла до дослідження. Способи отримання статистичних даних та обсяги вибірок встановлюють, виходячи з постановок конкретного прикладного завдання на основі методів математичної теорії планування експерименту.

Результат спостереженняxiдосліджуваної ознакиХ(або сукупності досліджуваних ознакХ) уi– одиниці вибірки відображає кількісні та/або якісні властивості обстеженої одиниці з номеромi(тутi= 1, 2, …,n, деn– обсяг вибірки). Поділ прикладної статистики на напрями відповідно до виду оброблюваних результатів спостережень (тобто на статистику випадкових величин, багатовимірний статистичний аналіз, статистику часових рядів та статистику об'єктів нечислової природи) обговорювалося вище.

Результати спостереженьx1,x2,…,xn, деxi- результат спостереженняi- ой одиниці вибірки , або результати спостережень для кількох вибірок, обробляють за допомогою методів прикладної статистики, що відповідають поставленійзадачі. Використовують, зазвичай, аналітичні методи, тобто. методи, засновані на чисельних розрахунках (об'єкти нечислової природи у своїй описують з допомогою чисел). В окремих випадках допустиме застосування графічних методів (візуального аналізу).

Кількість розроблених на сьогодні методів обробки даних дуже велика. Вони описані у сотнях тисяч книг та статей, а також у стандартах та інших нормативно-технічних та інструктивно-методичних документах.

Багато методів прикладної статистики вимагають проведення трудомістких розрахунків, тому їх реалізації необхідно використовувати комп'ютери. Програми розрахунків на ЕОМ мають відповідати сучасному науковому рівню. Однак для поодиноких розрахунків за відсутності відповідного програмного забезпечення успішно використовують мікрокалькулятори.

Завдання статистичного аналізу точності та стабільності технологічних процесів та якості продукції.Статистичні методи використовують, зокрема, для аналізу точності та стабільності технологічних процесів та якості продукції. Мета - підготовка рішень, що забезпечують ефективне функціонування технологічних одиниць та підвищення якості та конкурентоспроможності продукції, що випускається. Статистичні методи слід застосовувати у всіх випадках, коли за результатами обмеженої кількості спостережень потрібно встановити причини покращення чи погіршення точності та стабільності технологічного обладнання. Під точністю технологічного процесу розуміють властивість технологічного процесу, що зумовлює близькість дійсних та номінальних значень параметрів продукції, що виробляється. Під стабільністю технологічного процесу розуміють властивість технологічного процесу, що зумовлює сталість розподілів ймовірностей для йогопараметрів протягом деякого інтервалу часу без втручання ззовні.

Цілями застосування статистичних методів аналізу точності та стабільності технологічних процесів та якості продукції на стадіях розробки, виробництва та експлуатації (споживання) продукції є, зокрема:

• визначення фактичних показників точності та стабільності технологічного процесу, обладнання чи якості продукції;

• встановлення відповідності якості продукції вимогам нормативно-технічної документації;

• перевірка дотримання технологічної дисципліни;

• вивчення випадкових та систематичних факторів, здатних призвести до появи дефектів;

• виявлення резервів виробництва та технології;

• обґрунтування технічних норм та допусків на продукцію;

• оцінка результатів випробувань дослідних зразків при обґрунтуванні вимог до продукції та нормативів на неї;

• обґрунтування вибору технологічного обладнання та засобів вимірювань та випробувань;

• порівняння різних зразків продукції;

• обґрунтування заміни суцільного контролю статистичним;

• виявлення можливості впровадження статистичних методів управління якістю продукції тощо.

Для досягнення перерахованих вище цілей застосовують різні методи опису даних, оцінювання та перевірки гіпотез. Наведемо приклади постановок завдань.

Завдання одновимірної статистики (статистики випадкових величин).Порівняння математичних очікувань проводять у тих випадках, коли необхідно встановити відповідність показників якості виготовленої продукції та еталонного зразка. Це завдання перевірки гіпотези:

деm0 – значення, що відповідає еталонному зразку;Х- випадкова величина, що моделює результатиспостережень. Залежно від формулювання ймовірнісної моделі ситуації та альтернативної гіпотези, порівняння математичних очікувань проводять або параметричними, або непараметричними методами.

Порівняння дисперсій проводять тоді, коли потрібно встановити відмінність розсіювання показника якості від номінального. Для цього перевіряють гіпотезу:

Низка інших постановок завдань одномірної статистики наведено нижче. Не менше значення, ніж завдання перевірки гіпотез, мають завдання оцінювання параметрів. Вони, як і завдання перевірки гіпотез, залежно від ймовірнісної моделі ситуації діляться на параметричні і непараметричні.

У параметричних задачах оцінювання приймають ймовірнісну модель, згідно з якою результати спостереженьx1,x2,…,xnрозглядають як реалізаціїnнезалежних випадкових величин з функцією розподілуF(x;θ). Тут θ – невідомий параметр, що лежить у просторі параметрів Θ заданому моделлю, що використовується. Завдання оцінювання полягає у визначенні точкової оцінок та довірчих кордонів (або довірчої області) для параметра θ.

Параметр θ – чи число, чи вектор фіксованої кінцевої розмірності. Так, для нормального розподілу θ = (m, σ 2 ) – двомірний вектор, для біноміального θ =p– число для гамма-розподілу θ = (a, 5>b,(4>c ) – тривимірний вектор, і т.д.

У сучасній математичній статистиці розроблено низку загальних методів визначення оцінок та довірчих кордонів – метод моментів, метод максимальної правдоподібності, метод однокрокових оцінок, метод стійких (робастних) оцінок, метод незміщених оцінок та ін. Коротко розглянемо перші три з них. Теоретичні основи різних методів оцінювання таотримані з їх допомогою конкретні правила визначення оцінок та довірчих кордонів для тих чи інших параметричних сімейств розподілів розглянуті у спеціальній літературі, включені до нормативно-технічної та інструктивно-методичної документації.

Метод моментів заснований на використанні виразів моментів аналізованих випадкових величин через параметри їх функцій розподілу. Оцінки методу моментів отримують, підставляючи вибіркові моменти замість теоретичних функції, що виражають параметри через моменти.

У методі максимальної правдоподібності, розробленому в основному Р.А.Фішером, як оцінку параметра θ беруть значення θ*, для якого максимальна так звана функція правдоподібності

деx1,x2,…,xn- результати спостережень;f(x, θ) – їхня щільність розподілу, яка залежить від параметра θ, який необхідно оцінити.

Оцінки максимальної правдоподібності зазвичай ефективні (або асимптотично ефективні) і мають меншу дисперсію, ніж оцінки методу моментів. У окремих випадках формули їм виписуються явно (нормальний розподіл, експоненціальний розподіл без зсуву). Однак найчастіше для їх знаходження необхідно чисельно вирішувати систему трансцендентних рівнянь (розподіл Вейбулла-Гніденко, гама). У таких випадках доцільно використовувати не оцінки максимальної правдоподібності, а інші види оцінок, насамперед однокрокові оцінки. У літературі їх іноді не зовсім точно називають "наближені оцінки максимальної правдоподібності". При досить великих обсягах вибірок вони мають такі ж добрі властивості, як і оцінки максимальної правдоподібності. Тому їх слід розглядати не як «наближені», а як оцінки, отримані за іншим методом, не менш обґрунтованим іефективного, ніж метод максимальної правдоподібності. Однокрокові оцінки обчислюють за явними формулами (див. розділ 2.2, а також [14]).

У непараметричних завданнях оцінювання приймають ймовірнісну модель, в якій результати спостереженьx1,x2,…,xnрозглядають як реалізації незалежних випадкових величин з функцією розподілуF(x) загального виду. ВідF(x) вимагають лише виконання деяких умов типу безперервності, існування математичного очікування та дисперсії тощо. Подібні умови не є такими жорсткими, як умова належності до певного параметричного сімейства.

У непараметричній постановці оцінюють або характеристики випадкової величини (математичне очікування, дисперсію, коефіцієнт варіації) або її функцію розподілу, щільність і т.п. Так, в силу закону великих чисел вибіркове середнє арифметичне є заможною оцінкою математичного очікуванняМ(Х) (за будь-якої функції розподілуF(x<5)>) результатів спостережень, на яку математичне очікування існує). За допомогою центральної граничної теореми визначають асимптотичні довірчі межі.

(М(Х))Н = , (М(Х))В = .

де - довірча ймовірність, - квантиль порядку стандартного нормального розподілу N(0;1) з нульовим математичним очікуванням і одиничною дисперсією, - вибіркове середнє арифметичне,s- вибіркове середнє квадратичне відхилення. Термін "асимптотичні довірчі кордони" означає, що ймовірності

PH2), а θ* = (,s2). Для цього випадку кванти розподілів статистикDnіDn(θ*) наведені в табл.1 (див., наприклад, [15]). Таким чином, квантили відрізняються приблизно в1,5 разів.

Квантилі статистикDnіDn(θ*) під час перевірки нормальності