V. Угруповання спостережень

Якщо обсяг вибірки дуже великий, то обробляти весь масив зібраних даних іноді буває важко. З метою полегшити обчислювальну роботу у таких випадках проводять так званеугруповання спостережень.Вона буває також необхідна деяких статистичних процедур.

Подаємо вибірку (x1,x2,  ,xn) у вигляді варіаційного ряду:y1y2 yn. Величинаyny1 називаєтьсярозмахом вибірки.Розіб'ємо відрізок [y1,yn] наNрівних частин довжини .

Оскільки неминуче округлення даних, слід домовитися про кінці інтервалів: розбиваємо весь відрізок [y1,yn] на відрізки

k[xk ,xk ),

деxk – серединаk-ого напівзакритого інтервалу. При такому розбиттіостаннійінтервал беремо у вигляді

N[xN ,xN ].

Позначимо черезmkчисло спостережень, що потрапили доk-й інтервал k. Числаx1  x2  xN називаютьінтервальним варіаційним рядом,mk- приписані цим точкамчастоти.

В принципі, можна будувати інтервальний варіаційний ряд, виробляючи, якщо це потрібно, розбиття і нанерівніінтервали.

Вся подальша робота (наприклад, побудова емпіричної функції розподілу, оцінки тощо) здійснюється вже з інтервальним варіаційним рядом. У цьому слід пам'ятати, що угруповання вносить у статистичні обчислення додаткову помилку –помилка на угруповання.

Число інтервалівNвибирають так, щоб частотиmkбули досить великі, а саме числоNне надто велике.

Розбиття на нерівні інтервали проводять у тому випадку, якщо на осіxє області дуже бідні спостереженнями, що потрапили туди.

VI. Оцінка щільності ймовірності

НехайX- безперервна випадкова величина із щільністю ймовірностіp(x) (рис. 4). Потрібно знайти цю густину, хоча б приблизно, у точціx.

Нехай  – довільний досить малий інтервал із центром у точціx.

Очевидно, якщо інтервал  досить малий, аx– точка безперервності щільностіp(x), то

PX>p(x)dxp(x).

Тут буквою  ми позначили інтервал як безліч точок, і його довжину.

p(x)PX>, ()

причому помилка цього наближення тим менша, чим менше .

Стійка у () ймовірністьPX> ми вміємо приблизно оцінювати частотою події X>:PX>, деm – число спостережень у вибірці, що потрапили в інтервал . Помилка цього наближення в середньому тим менша, чим більшеnіm, а для того, щобm було досить велике, потрібно, щоб інтервал  був не дуже малий (інакше ймовірність потрапити до нього при спостереженнях буде мала).

p(x),

іпроцедура оцінки щільностівиглядає наступним чином:проводимо угруповання спостережень і по інтервальному варіаційному ряду знаходимо оцінку щільностіp(x)у точкахxk :

p(xk ).

Графічно можна відкласти ординати довжини в абсцисахxk . Далі з'являються дві можливості: можна або з'єднати отримані точки ламаною лінією - отримаємо полігон частот (рис. 5), або провести через них горизонтальні відрізки - отримаємогістограму(рис. 6).

Мал. 5. Полігон частот.

Мал. 6. Гістограма.

Полігон і гістограма і дають наближення для щільності p (x). Закон великих чисел Бернуллі та загальновідомі теореми математичного аналізу дозволяють стверджувати, що у точках безперервностіщільностіp(x)відхилення від її гістограми і полігону будуть як завгодно малі з якою завгодно великою ймовірністю при досить великихnіNі досить малому . Потрібно пам'ятати, що, з одного боку, потрібно робити малим, щоб зменшити помилку від заміни інтеграла площею сходинки, а з іншого боку, не можна взяти занадто малим, щоб не збільшити ймовірнісну помилку від заміни ймовірності на відносну частоту.