Excel у статистичному комп’ютерному моделюванні

При аналізі статистичних закономірностей, наприклад, знаходженні відсоткових точок чи оцінці потужності будь-якого статистичного критерію, ефективний метод статистичного комп'ютерного моделювання (суті, різновид методу Монте-Карло).

При вирішенні подібних завдань у цьому методі відповідно до деякого закону розподілу ймовірностей випадкової величини моделюютьNвибірок об'ємомnз використанням датчика випадкових чисел, що генерує випадкові числа, що мають теоретично рівномірний розподіл з параметрами 0 і 1. Це дозволяє розглядати їх як значення інтегральної функції розподілу, що моделюється. За згенерованими випадковими числами розраховують квантили модельованого розподілу, які розглядають як елементи вибірки. У цьомуNмає бути досить великим. Наприклад, при розрахунку відсоткових точок статистичних критеріїв задля досягнення високої точності рекомендується мільйон вибірок [1]. За змодельованими вибірками знаходять цікаві чисельні значення чи емпіричні закономірності. Так, при знаходженні відсоткових точок будь-якого статистичного критерію розраховують його значення для кожної вибірки, а потім відкидають найбільші значення критерію, в долі, що дорівнює прийнятому рівню значимості. Найбільше значення критерію після відкидання дорівнює відповідній відсотковій точці.

Універсальні програмні пакети статистичного аналізу є малопридатними для таких досліджень. Тому метод зазвичай реалізується шляхом створення відповідного наукомісткого програмного забезпечення [1, 2]. Однак такий підхід має ряд недоліків: досліднику необхідно вміння програмувати (що не завжди зустрічається серед інженерно-технічних та науковців), програма часто створюється під одну чипорівняно вузьке коло розв'язуваних завдань, існуюче програмне забезпечення малодоступне, а створення потребує певного, іноді досить значного фінансування.

У той самий час простим, універсальним і доступним інструментом статистичного комп'ютерного моделювання може бути табличний процесор MS Excel. Автоматичне моделювання великої кількості вибірок при цьому досягається застосуванням зацикленого макросу, оскільки при кожному виконанні макросу випадкові числа генеруються заново і, отже, моделюється нова вибірка. Макрос може бути написаний мовою Visual Basic Application або за допомогою програми-макрорекордера. У другому випадку взагалі не обов'язково знати програмування, проте код макросу не буде оптимальним, що може суттєво уповільнювати розрахунки. Під зациклений макрос, створений один раз, можна «підлаштувати» в електронній таблиці майже будь-яке абстрактне чи конкретне завдання з теорії ймовірностей чи математичної статистики.

Можливість застосування Excel під час статистичного комп'ютерного моделювання перевіряли шляхом розрахунку значень відсоткових точок для критерію грубих помилок (критерію аномальності) Н.В. Смирнова [3] та порівняння набутих значень з літературними даними.

Слід зазначити, що ГОСТ Р ІСО 5725-2-2002 та ГОСТ Р 8-736-2011 рекомендують використовувати для аналізу вибірок на грубі помилки при одному сумнівному значенні у вибірці критерій Граббса. Однак у таблицях відсоткових точок критерію Граббса у цих ГОСТах рівні значимості завищені удвічі, і якщо зменшити їх відповідним чином, то критерій Граббса зводиться до критерію Н.В.Смирнова [4]. Тому, мабуть, коректною була б назва "критерій Смирнова (Граббса)", яка нерідко зустрічається в літературі.

Розрахунок процентних точокпроводили для максимального значення вибірки при обсягах вибірокn3, 5, 10, 50 і 100. Вибірки моделювали стандартного нормального розподілу в кількості 10 6 для кожного обсягу вибірки. Значення критерію розраховували за вибірковими оцінками параметрів розподілу. Статистика критерію Н.В.Смирнова tрасч для сумнівного значення розраховується за рівнянням:

де xc – сумнівне значення, хср – середнє значення вибірки, s – вибіркове середньоквадратичне відхилення.

Розраховані у цьому дослідженні відсоткові точки критерію Н.В.Смирнова, і навіть наведені в [1] (під назвою критерію Граббса), наведено у таблиці.

nЗа [1]За розрахунком
1%5%10%1%5%10%
31,1551,1531,1481,1551,1531,148
51,7491,6721,6021,7491,6711,602
102,4102,1762,0362,4092,1762,036
503,3362,9562,7683,3382,9582,769
1003,6003,2073,0173,6003,2073,017
Як видно з таблиці, розраховані в Excel значення процентних точок відрізняються від наведених в [1] не більше ніж на 0,001..0,002. Таке відхилення цілком прийнятне.

Не виключено, що при вирішенні інших завдань відхилення від дійсних значень може бути дещо більшим. Можливо, слід у кожному випадку перевіряти відхилення і при необхідності збільшувати кількість вибірок, що моделюються. Але, так чи інакше, табличний процесор MS Excel цілком прийнятний длязастосування під час статистичного комп'ютерного моделювання.

&nbsp &nbsp &nbsp &nbsp ЛІТЕРАТУРА

&nbsp &nbsp &nbsp &nbsp Далі &nbsp &nbsp Зміст