Асимптотична оптимальність бутстреп-оцінок - Розробка проекту методики оцінки показників
Асимптотична оптимальність бутстреп-оцінок
Розглянемо задачу оцінювання функції розподілу F за вибіркою обсягу п з . Для простоти припустимо, що функція розподілу F та оцінка належать деякому простору Z функцій на прямий, який має норму * . При цьому втрати від прийняття оцінки , коли істинна функція розподілу є F, вимірюються величиною , де l - монотонна функція незменшується на безлічі невід'ємних чисел. Наприклад, можна вимірювати втрати завбільшки або . Ризиком оцінки називається середнє втрат, тобто. . Щоб виключити появу так званих суперефективних оцінок, вводиться мінімаксний ризик , де V - околиця (невідомого істинного розподілу) в F. Оцінка називається локальною асимптотичною мінімаксною, якщо в межі при її мінімаксному ризику за будь-якою достатньою малою околицею V виявляється меншою, ніж у будь-якої інший оцінки, тобто.
Властивість локальної асимптотичної мінімаксності для оцінки буде, як правило, справедливо і для іншої оцінки відхиляється від неї, тобто. (імовірно).
Для багатьох завдань оцінювання функцій (не тільки функцій розподілу) нижні межі асимптотичного ризику оцінок описуються нерівністю інформації виду
Наочніша форма останнього твердження, що наближає його до класичних нерівностей інформації, виходить, якщо перейти до межі по околицях V, що стягується до (невідомого істинного досить довільного) розподілу F 0 :
Тут - гаусівський процес з безперервними траєкторіями, який має нульове середнє та коваріації, що визначаються видом оцінюваної функції та ступенем апріорної невизначеності розподілу спостережень. Так, у задачі непараметричного оцінювання функції розподілу за повноїневизначеності розподілу - це добре відомий-броунівський міст з коварійною функцією виду
тут - мінімум з t, s. Нехай - бутстреп-версія емпіричного процесу,
де - Емпірична функція розподілу, побудована за бутстреп-вибіркою обсягу т з розподілу.
Беран розглянув таку ситуацію. Припустимо, що з незалежної повторної вибірці X n обсягу п будується статистика має властивість асимптотичної нормальності. Точніше, існує послідовність функціоналів , на яку має місце збіжність за розподілом при , тобто. - Оцінка залежить від п функціоналу. Беран ввів ряд аналітичних припущень, які означають, що функція розподілу випадкової величини допускає асимптотичне розкладання першого порядку, (типу розкладання Еджворта) рівномірно за функцією розподілу F з малої околиці довільного істинного розподілу F 0 . Таким чином, Беран використовує негрубу апроксимацію, а акуратніше наближення
Тут коефіцієнти k(F),(F) та b(F) залежать від невідомого розподілу F і задовольняють деяким додатковим припущенням. Зазначимо, що стандартне відхилення статистики. Рівномірність подібного розкладання означає, що для досить малої околиці V (невідомого) довільного розподілу F 0 залишковий член не просто прагне нуля при , а задовольняє умові
При цих припущеннях Беран описує нижні межі асимптотичного ризику щодо функції втрат виду , де згортка функції W з деякою абсолютно безперервною функцією розподілу V.
У правій частині цієї нерівності фігурує гаусівський процес
де - залежить від невідомого розподілу F невипадкова величина; - невипадкова функція виду; Z -стандартна нормальна довільна величина.
Оцінка функції розподілу має властивість локальної асимптотичної мінімаксності. Зокрема, цим умовам задовольняє бутстреп-оцінка. При цьому для бутстреп-оцінки має місце слабка збіжність процесу до гауссівського процесу, в термінах якого описуються нижні межі асимптотичного ризику. Використовуючи розкладання Еджворта (2.2.2), можна підставити замість невідомих коефіцієнтів їхньої оцінки. Отримана таким способом оцінка функції розподілу відрізняється від бутстреп-оцінки на величину і має ті самі асимптотичними властивостями. Щоправда, практично цей підхід може призвести до деяких незручностей, оскільки оцінка з допомогою розкладання Еджворта може бути функцією розподілу, тобто. деяким подіям вона приписуватиме негативні ймовірності, але зі зростанням обсягу вибірки цей ефект буде все менш і менш помітним.
Беран також пояснив відомий у аналізі даних парадокс. Здавалося б. якщо функція розподілу при приблизно дорівнює (тут - функція розподілу стандартної нормальної величини), то оцінка , де - оцінка величини , що фігурує в (21), також представляється цілком прийнятною. Насправді нормоване відхилення при слабко сходиться до процесу, де - деяка невипадкова функція, яка визначається справжньою функцією розподілу. Зокрема, якщо розподіл має ненульовий коефіцієнт асиметрії або оцінку зміщено, функція відмінна від нуля. У такому разі з результатів випливає, що асимптотичний ризик оцінки перевершує асимптотичний ризик бутстреп-оцінки.
Результати Берана прояснюють теоретичні властивості процедур бутстрепу. Справа в тому, що багато процедур побудови наближених довірчих інтервалів суттєво спираються на оцінки функціїрозподілу та функціоналів від . [12], [14]