Статистика та котики як теплі коти стали частиною наукової книги, Журнал Популярна Механіка

Описова статистика: хто такі котики

Котики бувають різні: великі і маленькі, з висячими вушками і короткими лапками, довгохвості або без хвоста. Але в кожному з них є деякі риси, які дозволяють нам об'єднати їх під назвою «котики». Але ж десь існує котик, якого можна вважати типовим представником сімейства. Як його знайти? Для простоти візьмемо таку властивість як розмір. Перше, що ми можемо зробити, — подивитися, який розмір котики зустрічаються частіше. Цей розмір називається модою, і він цілком може претендувати на звання типового. А ще ми можемо розмістити котиків по порядку, від найменшого до найбільшого, і подивитися, котик якого розміру знаходиться посередині. Цей розмір називається медіаною.

Ну а якщо ми складемо розміри всіх наших котиків і розділимо на їхню кількість, то отримаємо середню арифметичну, знайому нам ще зі школи. Важливо пам'ятати, що показник середнього значення дуже чутливий до викидів. Якщо нашу вибірку потрапить унікум розміром зі слоника, його розмір помітно зрушить середнє значення у бік, і тоді воно перестане відбивати реальну картину.

Мода, медіана та середнє значення дозволяють знаходити типові розміри котиків та називаються заходами центральної тенденції. Але крім типових значень нас цікавить і те, наскільки різноманітними можуть бути котики. У цьому можуть допомогти заходи мінливості. Найпростіша з них — розмах — це лише різниця між найбільшим і найменшим котиками. Іноді статистики відсікають 25% найбільших і 25% найдрібніших котиків, обчислюючи різницю лише групи «середнячків». Цявеличина називається міжквартильним розмахом.

Оцінити розкид можна за допомогою дисперсії. Припустимо, ми вирішили порівняти величину деякого конкретного Барсика із середнім котиковим розміром. Різниця (а точніше, різницю) цих розмірів називається відхиленням від середнього. Чим сильніший Барсик від нього відрізняється, тим відхилення більше. І звичайно, чим більше прикладів з більшим відхиленням, тим різноманітнішими є котики за розміром.

Математичний тест: чи зможеш ти його пройти?

Як швидко рахувати відсотки в розумі: математична хитрість

Щоб оцінити різноманітність, ми можемо діяти вже випробуваним способом: скласти всі відхилення та поділити на загальну кількість котиків, тобто знайти середнє відхилення. Але оскільки відхилення можуть йти як у плюс, так і мінус, їх сума дасть нам нуль. Щоб цього не відбувалося, статистики зводять значення відхилень квадрат і лише потім знаходять середнє значення. Отримана величина називається дисперсією (D). Втім, для оцінки різноманітності котиків дисперсія не надто зручна, оскільки розмір вимірюється у звичайних сантиметрах, а дисперсія – у квадратних. Тому для зручності дисперсії витягують корінь, отримуючи середньоквадратичне відхилення (S).

Середнє значення та середньоквадратичне відхилення часто використовують спільно для компактного опису тієї чи іншої групи котиків. Як правило, більшість (близько 68%) котиків перебувають у межі одного середньоквадратичного відхилення від середнього. Ці котики мають нормальний розмір. 32%, що залишилися - котики або дуже великі, або дуже маленькі.

Все, про що ми говорили вище, відноситься до описової статистики, завдання якої - дати коротке уявлення про те, як виглядають досліджуванінами об'єкти. Міра центральної тенденції показує, як виглядає найбільш типовий із них. Міра мінливості відображає їхню різноманітність. Але, крім описової, існує й набагато більший клас методів, які дозволяють перевіряти гіпотези, які стосуються наших об'єктів. І тут на допомогу котикам приходять... песики.

Доказова статистика: чим котики відрізняються від песиків

Чимось песики та котики схожі: у тих та інших є чотири лапи, хвіст і пара вух — але багато в чому й різняться. Можливо, є відмінність і за розміром, але як це перевірити? Адже бувають як дуже маленькі песики, так і дуже великі котики… Перше, що спадає на думку, — це порахувати середній розмір котиків і середній розмір песиків, а потім відняти одне з іншого: чим більше виявиться ця величина, тим більша різниця між ними. Статистики так і надходять, поділяючи цю різницю на стандартну помилку - коефіцієнт, що залежить від розмірів вибірки та дисперсії. Отриманий показник називається t-критерієм Стьюдента. І що більше t-критерій, то з більшою впевненістю ми можемо стверджувати, що в середньому песики відрізняються від котиків за розміром.

Але наскільки більшим має бути t-критерій Стьюдента, щоб ми могли з упевненістю говорити про відмінність розмірів песиків та котиків? Щоб вирішити цю проблему, статистики йдуть від зворотного, висуваючи нульову гіпотезу. Давайте і ми вчинимо так і припустимо, що середні розміри котиків та песиків однакові. Тепер залишається подивитися, з якою ймовірністю ми отримаємо таке саме (або більше) значення t-критерію, якщо нульова гіпотеза вірна. Ця ймовірність називається p-рівнем значущості, і якщо вона велика (більше 5% або 0,05), то нульова гіпотеза не відкидається. Якщо р-уровень невисокий (менше 5% - 0,05), то нульова гіпотезавідкидається і приймається альтернативна - що котики все-таки відрізняються від песиків. Принаймні за розміром.

Останнім часом показник p-рівня часто критикується, але він продовжує залишатися одним із базових понять доказової статистики. Незалежно від того, чим ви займаєтеся - чи шукаєте відмінності між котиками і песиками або знаходите взаємозв'язки між котячим харчуванням і розміром, - ви обов'язково зіткнетеся з цим поняттям.

Отже, доказова статистика дозволяє перевіряти гіпотези про навколишній світ. Разом з описовою вона вирішує величезну кількість наукових і практичних завдань у різних областях, від психології та генетики до виробництва та маркетингу. Вона не обмежується поняттями, розібраними у цій статті. Вивчайте статистику та любите котиків.