Пов’язаний Байєсовський висновок

Матеріал із MachineLearning.

Зв'язаний Байєсовський висновок— метод порівняння регресійних моделей заснований на аналізі їхнього простору параметрів. Цей метод використовує класичний Байєсовський висновок двічі: для обчислення апостеріорної ймовірності параметрів моделі та обчислення апостеріорної ймовірності самої моделі. Пов'язаність полягає в тому, що обидва висновки використовують загальний співмножник, званий достовірністю моделі. Невід'ємною частиною цього є аналіз простору параметрів моделі та залежності цільової функції від значень параметрів. Результатом такого аналізу є можливість оцінити наскільки важливими є окремі параметри моделі для апроксимації даних. Зв'язаний Байєсовський висновок використовується як у задачах регресії, так і в задачах класифікації.

Зміст

Порівняння моделей

При порівнянні моделей використовується правило бритви Оккама в наступному формулюванні:Спільний висновок Байєсовського автоматично кількісно виконує правило Оккама. Бритва Оккама – принцип переваги простих моделей (теорій, гіпотез) складним. Якщо кілька моделей однаково добре описують спостереження, принцип Оккама рекомендує вибір найпростішої моделі.

Теорема Байєса говорить про те, що найімовірнішими будуть ті моделі, які найбільш точно передбачають появу деяких даних. Ця ймовірність визначається нормалізованою функцією розподілу на просторі даних. Імовірність появи даних при фіксованій моделі називається правдоподібністю моделі.

Проста модель визначає обмежену множину даних, що показано на малюнку функцією щільності розподілу . Більш складна модель, яка має, наприклад, більшу кількість параметрів, описує (інакшекажучи, наближає з деякою точністю, не гірше заданої) більша кількість даних. Це, згідно з нормуванням функції щільності розподілу, означає, що в деякій області проста модель буде більш ймовірною за умови, що обидві моделі мають однакову апріорну ймовірність.

Знайдемо правдоподібність двох альтернативних моделей і описують дані. За теоремою Байєса ми пов'язуємо правдоподібність моделі P при фіксованих даних, ймовірність отримання даних з цією моделлю і апріорна правдоподібність моделі . Так як значення нормуючого множника для обох моделей однаково, то відношення правдоподібності моделей має вигляд

Ставлення у правій частині вказує на те, наскільки велика апріорна перевага моделі моделі . Ставлення вказує наскільки модель відповідає спостеріганим даним краще, ніж модель .

Вираз (1) вводить правило Оккама в такий спосіб. По-перше, можна поставити ставлення так, щоб воно відображало складність моделей на підставі деякої додаткової інформації. По-друге, незалежно від попереднього способу завдання критерію відбору моделей це ставлення автоматично виконує правило Оккама. Справді, якщо більш складна модель, її щільність розподілу має менші значення, за умови, що її дисперсія більша. Якщо незв'язки, що додаються обома моделями рівні, проста модель буде більш вірогідна, ніж складна модель. Таким чином, незалежно від апріорних переваг, вводиться правило Оккама, згідно з яким при рівних апріорних перевагах і рівному відповідності передбачуваних моделей вимірюваним даним, проста модель більш ймовірна, ніж складна.

Приклад обчислення правдоподібності моделей

Розглянемо послідовність Потрібно передбачити наступні два числа та знайти закономірністьпослідовності. Перший варіант: . Закономірність є наступне число є попереднє плюс, інакше. Другий варіант: . Закономірність є.

З одного боку, можна безпосередньо призначити апріорні можливості для обох моделей так, щоб штрафувати більш складну модель. З іншого боку, можна визначити їх правдоподібність, і щоб визначити, наскільки добре обидві функції описують дані.

Модель залежить від двох параметрів: числа, що додається, і від першого числа в послідовності. Нехай кожен із цих параметрів належить безлічі. Оскільки пара значень доставляють функцію, відповідну даним , то ймовірність появи даних при заданій моделі дорівнює

Щоб обчислити , потрібно обчислити ймовірність параметрів у кубічному многочлене .

Ці параметри представлені у вигляді раціональних чисел (інакше обидві ці моделі були незрівнянні). Нехай чисельники параметрів, так само як і в попередньому випадку, набувають значення з множини а знаменники - з множини . При обчисленні ймовірності береться до уваги, що кілька способів уявити дріб на заданих множинах. Наприклад, . Імовірність дорівнює

Відношення правдоподібності двох моделей (а значить і їх апостеріорних ймовірностей за умови рівності апріорних переваг), і становить одну сорокамільйонну.

Два рівні Байєсівського висновку

При створенні моделей розрізняють два рівні Байєсовського висновку. На першому рівні передбачається, що розглянута модель адекватна. Здійснюється налаштування параметрів моделі за даними. У результаті виходять найбільш правдоподібні значення параметрів і помилок моделей при цих параметрах. Ця процедура повторюється кожної моделі. Завдання, яке вирішується надругий рівень виведення — порівняння моделей. Результатом є безліч моделей.

Кожна модель має вектор параметрів. Завдання першого рівня – отримати оцінку параметрів моделі при отриманих даних. Відповідно до теореми Байєса, апостеріорна ймовірність параметрів дорівнює

Нормуюча константа зазвичай не береться до уваги на першому рівні виведення. Однак вона стає дуже важливою на другому рівні виведення. Ця константа називається в англомовній літературіevidenveтобтодостовірність моделі.

При знайденні параметрів практично застосовують оптимізаційні методи типу алгоритму Левенберга-Марквардта, щоб отримати найімовірніші параметри . (Розрізняють найімовірніші параметри , які виводяться першому рівні як аргумент функції ймовірності, і найбільш правдоподібні параметри , які перебувають як аргумент функції найбільшого правдоподібності.)

Помилка (іноді звана прогностичною здатністю) моделі оцінюється за допомогою функції апостеріорного розподілу параметрів моделі. Для оцінки використовується наближення поряд Тейлора логарифму апостеріорного розподілу функції

де , і знаходить значення гессиана при значенні ваги максимальної правдоподібності в околиці :

Таким чином, функція апостеріорного розподілу параметрів моделі може бути локально наближена за допомогою матриці, яка є матрицею коваріації в околиці значення її параметрів.

Надругому рівнібайєсовського висновку потрібно визначити, яка модель найбільш адекватно описує дані. Апостеріорна ймовірність моделі задана як

Слід зазначити, що співмножник , що включає дані , є достовірність моделі , яка була названа раніше, у виразі(2), що нормує константою. Достовірність моделі може бути отримана інтегруванням функції правдоподібності по всьому простору параметрів моделі

Другий помножувач - апріорна ймовірність над простором моделей, визначає, наскільки адекватною (відповідний англійський термін - plausible) є модель до того, як з'явилися дані. Основною проблемою Байєсовського висновку є відсутність об'єктивних методів призначення апріорної ймовірності. Шлях апріорні можливості всіх моделей рівні. Тоді моделі ранжуються за значеннями достовірності.

Надзвичайно важливе припущення, яке необхідно зробити для вирішення задачі обчислення правдоподібності, - припущення про те, що розподіл має виражений пік на околиці найбільш ймовірного значення.

На малюнку показано, як обчислюється множник Оккама моделі з єдиним параметром на осі абсцис. Суцільною лінією показано апріорний розподіл параметра з дисперсією. Апостеріорний розподіл показаний пунктирною лінією має єдиний максимум у точці та має дисперсію.

Функцію розподілу ймовірності параметрів моделі наближають до гауссіани, визначеної в просторі параметрів. Для цього використовується апроксимація Лапласа. Відповідно до цього методу, ця функція дорівнює висоті піку підінтегрального виразу помноженої на ширину піку, .

достовірність найбільша правдоподібність множник Оккама.

Таким чином, достовірність моделі знаходиться за допомогою оцінок найбільшої правдоподібності параметрів моделі та множника Оккама, що приймає значення на відрізку, який штрафує модель за її параметри. Чим точніше була апріорна оцінка параметрів, тим менший штраф.

При апроксимації Лапласа множник Оккама може бути отриманий за допомогоювизначника коваріаційної матриці ваг

де - Гесіан коваріаційної матриці ваг, обчислений у точці . Аглоритмічно, Байєсовський метод порівняння моделей за допомогою обчислення достовірності не складніше, ніж завдання налаштування параметрів кожної моделі та оцінки матриці Гессе.

Отже, щоб відранжувати альтернативні моделі за перевагою, необхідно, скориставшись Байєсовським висновком, обчислити достовірність . Байєсовське порівняння моделей - це розширення методу вибору моделей за методом найбільшої правдоподібності. Достовірність можна визначити як для параметричних, так і для непараметичних моделей.

Приклад інтерпретації множника Оккама

Змінна є апостеріорною невизначеністю вектора параметрів. Нехай апріорний розподіл є рівномірним на деякому великому інтервалі і відображає безліч значень, які були можливі апріорі згідно моделі . Тоді і

Множник Оккама є ступінь стиснення простору параметрів моделі з появою даних. Модель може бути представлена сімейство параметричних функцій, з яких фіксується одна, щойно з'являються дані. Множник є число, обернене до кількості таких функцій (для кінцевого їх числа). Логарифм множника Оккама є мірою кількості інформації про параметри моделі, яка буде отримана з появою даних.

На малюнку показані три моделі, які мають рівні апріорні ймовірності. Кожна модель має один параметр (показаний на осях абсцис), причому параметрам призначені різні апріорні області визначення. Модель - найбільш "гнучка", або "складна", з найбільшою апріорною областю визначення. Одновимірне місце даних показано на осі ординат. Для кожної моделі призначено спільний розподілймовірності для даних та параметрів. Розподіл показано хмарами точок випадкових значень цієї функції. Кількість точок для кожної з трьох моделей однакова, оскільки моделям були призначені однакові апріорні ймовірності.

Коли приходять набір даних (у цьому прикладі це єдина точка на осі ординат), виводиться апостеріорний розподіл параметрів моделей. Апостеріорний розподіл показано пунктирною лінією внизу. Суцільною лінією показано апріорний розподіл параметрів.

Для набору даних, показаних пунктирною горизонтальною лінією, достовірність найбільш гнучкої моделі має менше значення, ніж достовірність моделі. Це відбувається тому, що модель має меншу область перетину розподілу ймовірності з лінією , ніж модель . У термінах розподілу параметрів модель має меншу достовірність, так як множник Оккама для моделі менше, ніж для моделі . Найпростіша модель має найменшу достовірність, оскільки найгірше наближає дані. Модель занадто універсальна, її множник Оккама – штраф за універсальність моделі – великий і тому вона не є найкращою. Для отриманого набору даних найімовірніша модель.

Формула Байєса, коротко

Умовна ймовірність є ймовірністю події за умови настання події. З усіх елементів безлічі елементарних подій, що належать лише ті події, які належать перетину і . Ці елементи визначають. Але, якби було нормовано, то дорівнювало б. Тому, щоб умовна ймовірність відповідала умовам нормування, використовують множник, що нормує:

Згідно з формулою множення ймовірностей, чисельник цього дробу дорівнює

Розбиття множини на повну групу несумісних подій дозволяє будь-яку подію записати ввигляді

Нехай 0" alt= "P(H),P(D)>0" />. Тоді з

що після обліку (3) призводить до формули Байєса