НОУ ІНТУІТ, Лекція, Економетричні інформаційні технології

Методи розмноження вибірок (бутстреп-методи)

Економетрика та прикладна статистика бурхливо розвиваються останні десятиліття. Серйозним (хоча, зрозуміло, не єдиним і не головним) стимулом є продуктивність обчислювальних засобів, що стрімко зростає. Тому зрозумілий гострий інтерес до статистичних методів, що інтенсивно використовують комп'ютери. Одним із таких методів є так званий "бутстреп", запропонований у 1977 р. Б.Ефроном зі Станфордського університету (США).

Сам термін "бутстреп" - це "bootstrap" українськими літерами та буквально означає щось на кшталт: "витягування себе (з болота) за шнурки від черевиків". Термін спеціально придуманий і змушує згадати подвиги барона Мюнхгаузена.

на думку його пропагандистів, повністю вирішував актуальне наукове завдання;
був зрозумілий (при постановці задачі, при її вирішенні та інтерпретації результатів) широким масам потенційних користувачів;
використав сучасні можливості обчислювальної техніки.

Пропагандисти методу, як правило, уникали неупередженого порівняння його можливостей із можливостями інших економетричних методів. Якщо порівняння і проводилися, то із свідомо слабким "противником".

Йдеться про такі методи як бутстреп, нейронні мережі, метод групового обліку аргументів, робасні оцінки за Тьюкі-Хубером ("Проблеми стійкості економетричних процедур"), асимптотика пропорційного зростання числа параметрів та обсягу даних та ін. Бувають локальні сплески ентузіазму, наприклад, московські Соціологи в 1980-х роках пропагували так званий "детермінаційний аналіз" - простий евристичний метод аналізу таблиць спряженості, хоча в Новосибірську в цей час давно вжебуло розроблено просунуте програмне забезпечення аналізу векторів різнотипних ознак ("Статистика нечислових даних").

У чому основна ідея групи методів "розмноження вибірок", найвідомішим представником яких є бутстреп?

Нехай дана вибірка. У вероятностно-статистической теорії припускаємо, що це - набір незалежних однаково розподілених випадкових величин. Нехай економетрика цікавить деяка статистика. Як вивчити її властивості? Подібними проблемами ми займалися протягом усієї книги та знаємо, наскільки це непросто. Ідея, яку запропонував у 1949 р. М. Кенуй (це і є "метод доладного ножа") полягає в тому, щоб з однієї вибірки зробити багато, виключаючи по одному спостереженню (і повертаючи раніше виключені). Перерахуємо вибірки, які виходять із вихідної:

Усього нових (розмножених) вибірок обсягом кожна. За кожною з них можна розрахувати значення цікавої для економетрика статистики (із зменшеним на 1 обсягом вибірки):

Отримані значення статистики дозволяють судити про її розподіл і про характеристики розподілу - про математичне очікування, медіану, квантилі, розкид, середнє квадратичне відхилення. Значення статистики, побудовані за розмноженими підвиборками, не є незалежними, проте, як ми бачили "Багатомірний статистичний аналіз" на прикладі низки статистик, що виникають у методі найменших квадратів і в кластері-аналізі (при обговоренні можливості об'єднання двох кластерів), при зростанні обсягу вибірки вплив залежності може слабшати і зі значеннями статистик типу можна поводитися як із незалежними випадковими величинами.

Однак і без будь-якої імовірнісно-статистичної теорії розкид величин дає наочне уявлення про те, якуточність може дати аналізована статистична оцінка.

Сам М. Кенуй та її послідовники використовували розмноження вибірок переважно для побудови оцінок зі зменшеним усуненням. А ось Б. Ефрон започаткував новий спосіб розмноження вибірок, що істотно використовує датчики псевдовипадкових чисел. А саме, він запропонував будувати нові вибірки, моделюючи вибірки з емпіричного розподілу (див. визначення в термінологічному Додатку 1). Іншими словами, Б. Ефрон запропонував взяти кінцеву сукупність з n елементів вихідної вибірки та за допомогою датчика випадкових чисел сформувати з неї будь-яку кількість розмножених вибірок. Процедура, хоч і нереальна без ЕОМ, проста з погляду програмування. Порівняно з описаною вище процедурою з'являються нові недоліки – неминучі збіги елементів розмножених вибірок та залежність від якості датчиків псевдовипадкових чисел (див. вище). Однак існує математична теорія, що дозволяє (при деяких припущеннях та безмежному зростанні обсягу вибірки) обґрунтувати процедури бутстрепу (див. збірку статей [21]).

Існує багато способів розвитку ідеї розмноження вибірок (див., наприклад, статтю [22]). Можна за вихідною вибіркою побудувати емпіричну функцію розподілу, а потім будь-яким чином від кусково-постійної функції перейти до безперервної функції розподілу, наприклад, з'єднавши точки прямих відрізками. Інший варіант - перейти до безперервного розподілу, збудувавши непараметричну оцінку щільності. Після цього рекомендується брати розмножені вибірки із цього безперервного розподілу (що є заможною оцінкою вихідного), безперервність захистить від збігів елементів у цих вибірках.

Інший варіант побудови розмножених вибірок - більш прямий. Вихідні дані не можутьбути визначені точно і однозначно. Тому пропонується до вихідних даних додавати малі незалежні однаково розподілені похибки. При такому підході одночасно поєднуємо разом ідеї стійкості ("Проблеми стійкості економетричних процедур") та бутстрепу. При уважному аналізі багато ідей економетрики тісно друг з одним пов'язані (див. статтю [22]).

Аналогічною є ситуація й у ряді інших випадків. Там, де економетрична теорія добре розвинена, де знайдено методи аналізу даних, у тому чи іншому сенсі близькі до оптимальних, бутстрепу робити нічого. А ось у нових областях зі складними алгоритмами, властивості яких недостатньо зрозумілі, він є цінним інструментом для вивчення ситуації.