V. Угруповання спостережень
Якщо обсяг вибірки дуже великий, то обробляти весь масив зібраних даних іноді буває важко. З метою полегшити обчислювальну роботу у таких випадках проводять так званеугруповання спостережень.Вона буває також необхідна деяких статистичних процедур.
Подаємо вибірку (x1,x2, ,xn) у вигляді варіаційного ряду:y1y2 yn. Величинаyny1 називаєтьсярозмахом вибірки.Розіб'ємо відрізок [y1,yn] наNрівних частин довжини .
Оскільки неминуче округлення даних, слід домовитися про кінці інтервалів: розбиваємо весь відрізок [y1,yn] на відрізки
k[xk ,xk ),
деxk – серединаk-ого напівзакритого інтервалу. При такому розбиттіостаннійінтервал беремо у вигляді
N[xN ,xN ].
Позначимо черезmkчисло спостережень, що потрапили доk-й інтервал k. Числаx1 x2 xN називаютьінтервальним варіаційним рядом,mk- приписані цим точкамчастоти.
В принципі, можна будувати інтервальний варіаційний ряд, виробляючи, якщо це потрібно, розбиття і нанерівніінтервали.
Вся подальша робота (наприклад, побудова емпіричної функції розподілу, оцінки тощо) здійснюється вже з інтервальним варіаційним рядом. У цьому слід пам'ятати, що угруповання вносить у статистичні обчислення додаткову помилку –помилка на угруповання.
Число інтервалівNвибирають так, щоб частотиmkбули досить великі, а саме числоNне надто велике.
Розбиття на нерівні інтервали проводять у тому випадку, якщо на осіxє області дуже бідні спостереженнями, що потрапили туди.
VI. Оцінка щільності ймовірності
НехайX- безперервна випадкова величина із щільністю ймовірностіp(x) (рис. 4). Потрібно знайти цю густину, хоча б приблизно, у точціx.

Нехай – довільний досить малий інтервал із центром у точціx.
Очевидно, якщо інтервал досить малий, аx– точка безперервності щільностіp(x), то
PX>p(x)dxp(x).
Тут буквою ми позначили інтервал як безліч точок, і його довжину.
p(x)PX>, ()
причому помилка цього наближення тим менша, чим менше .
Стійка у () ймовірністьPX> ми вміємо приблизно оцінювати частотою події X>:PX>, деm – число спостережень у вибірці, що потрапили в інтервал . Помилка цього наближення в середньому тим менша, чим більшеnіm, а для того, щобm було досить велике, потрібно, щоб інтервал був не дуже малий (інакше ймовірність потрапити до нього при спостереженнях буде мала).
p(x),
іпроцедура оцінки щільностівиглядає наступним чином:проводимо угруповання спостережень і по інтервальному варіаційному ряду знаходимо оцінку щільностіp(x)у точкахxk :
p(xk ).
Графічно можна відкласти ординати довжини в абсцисахxk . Далі з'являються дві можливості: можна або з'єднати отримані точки ламаною лінією - отримаємо полігон частот (рис. 5), або провести через них горизонтальні відрізки - отримаємогістограму(рис. 6).
Мал. 5. Полігон частот.

Мал. 6. Гістограма.

Полігон і гістограма і дають наближення для щільності p (x). Закон великих чисел Бернуллі та загальновідомі теореми математичного аналізу дозволяють стверджувати, що у точках безперервностіщільностіp(x)відхилення від її гістограми і полігону будуть як завгодно малі з якою завгодно великою ймовірністю при досить великихnіNі досить малому . Потрібно пам'ятати, що, з одного боку, потрібно робити малим, щоб зменшити помилку від заміни інтеграла площею сходинки, а з іншого боку, не можна взяти занадто малим, щоб не збільшити ймовірнісну помилку від заміни ймовірності на відносну частоту.