Проста лінійна регресія

Основні процедури математичного моделювання

Апроксимація

Апроксимація, або наближення - науковий метод, що полягає в заміні одних об'єктів іншими, у тому чи іншому сенсі близькими до вихідних, але більш простими.

У математичному моделюванні апроксимація використовується у двох варіантах:

1) є експериментальні дані, що відображають об'єктивну реальність, у вигляді окремих точок і потрібно уявити їх вигляді гладкої функції, яка і буде математичною моделлю, що відображає ці об'єктивні експериментальні дані;

2) вже є якась вихідна математична модель, але необхідно створити таку математичну модель, яка з одного боку буде простішою за вихідну, а з іншого боку буде схожа (в певних рамках) на неї.

У випадку вибір апроксимуючої функції багато чому визначається фізикою описуваного процесу.

Часто завдання апроксимації зводиться або до лінеаризації, або до лінійної регресії.

Математика багатогранна і в ній можна знайти як математичну модель, всередині якої є блок апроксимації, так і апроксимацію цілої математичної моделі. Якщо перше зрозуміло і пояснення не вимагає, то прикладом другого є, наприклад, апроксимація рідкісного катастрофічного явища, де саме явище описується складною математичною моделлю.

Лінеаризація

Вигоди лінійності бувають настільки великі, що наближена заміна нелінійних співвідношень на лінійні, нелінійних моделей на лінійні, тобто.

Розглянемо спочатку два найчастіше використовуваних випадків лінеаризації: або якщо експеримент показує (як, наприклад, для закону Гука), щовідхилення від лінійності в аналізованому діапазоніabзміни змінних невелике і несуттєве (рис.1,а), або необхідно лінеаризувати функцію в околиці точкиa(рис.1,б).

У першому випадку використовуєтьсялінійна інтерполяція, а в другому -лінеаризація із застосуванням ряду Тейлора.

Лінійна інтерполяція

Завдання зводиться до знаходження прямої, проведеної через дві точки:

звідки , де

У загальному випадку лінійну інтерполяцію можна застосувати і для більшої кількості точок – у цьому випадку замість кривої лінії одержуємо ламану лінію, що складається із послідовно з'єднаних прямих ліній (рис.2).

Лінеаризація за допомогою ряду Тейлора

У цьому випадку функціяy(x)розкладається в ряд Тейлора на околиці точкиa(рис.1,б):

де.

Другий доданок (2) – диференціал функціїy(x)у точціa.

Приклад. Вихідна математична модель є квадратним тричленом:

. (3)

Необхідно лінеаризувати цю модель на околиці точкиx=2.

Рішення. За (3) знаходимо: =4. Похідна

у точціx=2 дорівнює: =3, тоді лінеаризована модель

. (4)

Порівняємо результати розрахунків за формулами (3) та (4):

Як бачимо, при малих відхиленнях похибки виходять незначними.

До того ж, модель (4) простіше, ніж (3), але недоліком такого підходу є необхідність перерахунку коефіцієнтів (фактично побудова іншої моделі) за істотної зміни значенняx(наприклад, приx=3).

Лінійна регресія

Загальні положення

Як ми бачили, математична статистика займається обробкою даних, отриманих у результаті будь-якого експерименту. Узокрема – це залежність величиниYвід величиниXу вигляді набору точок на площині (xi, yi),i= 1, … n (рис.3). Але ця залежність не буде однозначною (тобтофункціональною ), а будеімовірнісною( абостохастичною ( ), оскільки в загальному випадку іYіX -випадкові величини.

Функціональні зв'язки є абстракціями, у реальному житті вони зустрічаються рідко, але знаходять широке застосування в точних науках і в першу чергу в математиці. Наприклад: залежність площі кола відрадіусу: S=π∙r2

Зазвичай при стохастичній залежності міжXіYодна величина розглядається як незалежна (X), а друга (Y) – як залежна від перша, і залежна величина поводиться як випадкова величина і її можна описати деяким імовірнісним законом розподілу.

Термінологіязалежнихінезалежнихзмінних відбиває лише математичну залежність змінних, а чи не причинно-наслідкові відносини.

Враховуючи специфіку ймовірнісного зв'язку, ці величини (точніше – ознаки) частіше називаютьфакторними (які зумовлюють зміни інших), або простофакторами, тарезультативними(які змінюються під впливом факторних ознак).

Виникнення поняття стохастичної залежності обумовлюється тим, що величини схильні до впливу неконтрольованих чи неврахованих чинників, і навіть тим, що вимірювання значень змінних неминуче супроводжується деякими випадковими ошибками.Стохастичний зв'язок полягає в тому, що одна випадкова змінна реагує на зміну іншою зміною свого законурозподілу.

Приватним випадком стохастичного зв'язку є кореляційний зв'язок , при якому зміна середнього значення результативної ознаки обумовлено зміною факторних ознак.

Тому при проведенні того ж експерименту ми могли б отримати і дещо інший набір пар (xi, yi) (точки червоного кольору нарис.4) через саме випадковість величин, що фігурують в експерименті.

Це можна інтерпретувати, що рис.3, наприклад, є свого роду «фотографією», а насправді точки (xi, yi), через випадкові фактори, можуть займати й інше місце на графіку.

Модель стохастичного зв'язку може бути представлена в загальному вигляді рівнянням:ŷi = ƒ(xi) + ei, де:

f(xi) -частина результативної ознаки, що сформувалася під впливом врахованих відомих факторних ознак (одного або множини), що перебувають у стохастичному зв'язку з ознакою;
ŷi -розрахункове значення результативної ознаки;
ei -частина результативної ознаки, що виникла внаслідок дії неконтрольованих або неврахованих факторів, а також вимірювання ознак, що неминуче супроводжується деякими випадковими помилками.

Порівняємо: модель функціонального зв'язку:

Різні розділи математичної статистики присвячені обробці випадкових величин відповідно до різних завдань, наприклад, з погляду розрахунку параметрів вибірки, чи - відмінності вибіркових параметрів від параметрів генеральної сукупності, тощо. Регресійний аналіз (РА) також є розділом математичної статистики і в ньому обробляються випадкові величини зі своїх позицій, а саме:

регресійний аналізвстановлює форми залежності між цимивеличинами X і Y. Така залежність визначається деякою математичною моделлю (рівнянням регресії), що містить кілька невідомих параметрів (червоні лінії на рис.5).

Найбільш загальне завдання РА : для експериментальних даних, що мають між собою стохастичну залежність, підібратинайбільш адекватну математичну модель у вигляді рівняння регресії, що графічно є деякою лінією.

Зазначимо, що з вивченні стохастичних залежностей крім РА використовують і кореляційний аналіз.

Фразу «найбільш адекватну математичну модель» слід розуміти відповідно до таких положень.

Для кожного конкретного значенняxi, крім зафіксованого значенняyiвеличиниY, є також кілька інших значень величиниY(через її випадковість) :yi1, yi2, yi3, ... yin, тому можна говорити про середнє значення:

У результаті кожногоxiє своє значення :