Curve Fitting Toolbox

Основи роботи в Curve Fitting Toolbox

1.3.8. Критерії придатності наближення

Після наближення даних стандартною параметричною моделлю або моделлю, заданою користувачем, оцінка якості наближення може бути проведена як графічно, так і з використанням різних критеріїв придатності наближення: SSE (сума квадратів помилок), R-square (критерій R-квадрат), Adjusted R- square (уточнений R-квадрат), RSME (корінь із середнього для квадрата помилки). Крім того, можна обчислити довірчі інтервали для знайдених значень параметрів моделі, що відповідають різним рівням ймовірності, та довірчі смуги для наближення та даних, так само відповідні різним рівням ймовірності.

Візуальна оцінка якості наближення

По-перше, побудувавши графіки даних та параметричної моделі вже можна зробити попередній висновок про те, наскільки добре обрана модель (знайденими значеннями параметрів) відповідає даним. Наприклад, при наближенні наступних даних

поліномом п'ятого ступеня, функцієюae bxабоa1sin(b1x + c1) + a2sin(b2x + c2)ми навряд чи отримаємо хороші наближення, що очевидно з відповідних графіків, наведених нижче

fitting
Наближення даних невірною моделлю

По-друге, візуально про якість наближення можна будувати висновки щодо розподілу помилок, тобто. різниці даних у заданих точках і значень параметричної моделі у цих точках. Якщо помилки досить рівномірно розподілені близько нуля й у поведінці немає вираженої тенденції, то краще наближення.

Наприклад, якщо дані

наблизити поліномом другого ступеняax² + bx + cта моделлюax² + c, в якій пропущенолінійне доданок, то отримаємо такі результати. Помилки при наближенні моделлюax² + bx + cбільш рівномірно розподілені близько нуля, ніж при наближенні моделлюax² + c(у додатку cftool використовувалася модель користувача Custom equation для створення моделіax² + c, див. Створення власної параметричної моделі, для виведення графіка помилок слід у меню View основного вікна програми cftool вибрати пункт Residuals і далі підпункт Scatter Plot або Line Plot). Наведені нижче графіки показують розподіл помилок для квадратичних моделей з лінійним доданком і без нього.

curve
Розподіл помилок для моделейax² + bx + cтаax² + c.

Для оцінки придатності наближення застосовують також ряд числових критеріїв, що обчислюються автоматично в додатку cftol.

Критерії придатності наближення

Критерій SSE (Sum of squares due to error) – сума квадратів помилок.

Критерій SSE обчислюється за такою формулою:

деwk- ваги (якщо вони не задані при імпорті даних, то вважаються рівними одиниці),yk- дані уxk, аk- значення параметричної моделіxk. Близькість SSE до нуля говорить про хорошу якість наближення даних параметричної моделі.

Критерій R-квадрат (R-square) – квадрат змішаної кореляції.

Критерій R-квадрат окреслюється відношення суми квадратів щодо регресії SSR до повної суми квадратів (SST), тобто.

даних

де – середнє.

Критерій R-квадрат може набувати значень тільки від нуля до одиниці і, як правило, чим ближче він до одиниці, тим краще параметрична модель наближає вихідні дані.

Однак, при збільшенні числа параметрів моделі значення критерію R-квадрат може збільшитися,хоча водночас, якість наближення не поліпшиться. У зв'язку з цим часто застосовують інший критерій - уточнений R-квадрат, до якого входить число коефіцієнтів параметричної моделі.

Уточнений R-квадрат (Adjusted R-square)

Якщо число даних дорівнюєn, а число параметрів моделі дорівнюєm, то критерій уточнений R-квадрат визначається так:

Його значення не може перевищувати одиниці, а близькі до одиниці значення уточненого R-квадрат свідчать про наближення вихідних даних параметричною моделлю.

Корінь із середнього для квадрата помилки RSME (Root mean Squared Error)

Близькі на нуль значення RSME означають хороше наближення вихідних даних параметричною моделлю.

Значення перерахованих вище критеріїв наближення даних параметричною моделлю виводяться у вікно Results і в таблицю Таble of fits вікна Fitting після обчислення параметрів моделі. Причому є можливість керувати кількістю виведених критеріїв якості наближення та інформацією про побудовану параметричну модель. Для цього в діалоговому вікні Fitting слід натиснути на кнопку Table Options… і вибрати потрібну інформацію (встановивши відповідні прапори) у діалоговому вікні Table Options, що з'явилося:

даних

У діалоговому вікні Table Options частина прапорів (SSE, R-square, Adj R-sq, RMSE) служить для виведення значень критеріїв наближення даних параметричною моделлю, причому імена прапорів збігаються з назвами вище наведених критеріїв наближення, а зміст інших прапорів такий:

  • Name - виводити ім'я наближення (завдання імені наближення описано в розд. Наближення стандартними параметричними та моделями. Робота з кількома наближеннями та кількома наборами даних.)
  • Data set - ім'я множини даних(завдання імені безлічі даних описано в розділі Вікно програми cftool. Імпорт даних до програми cftool).
  • Type - тип наближення (одна із стандартних параметричних моделей, описаних у розд. Стандартні параметричні та непараметричні моделі, або Custom equation, якщо застосовувалася користувальницька модель, див. Розд. Створення власної параметричної моделі).
  • DFE – кількість ступенів свобод, тобто. різниця між числом даних та параметрами моделі.
  • # Coeff – число коефіцієнтів у параметричній моделі.

Довірчі інтервали та смуги

Під час вибору параметрів у додатку cftool обчислюються довірчі інтервали для знайдених значень параметрів моделі, що відповідають певному заданому рівню ймовірності (за умовчанням він дорівнює 95%). Межі довірчих інтервалів параметрів виводяться в область виводу Results діалогового вікна Fitting. Наприклад, при наближенні даних

поліномом другого ступеня

Значення коефіцієнтів та довірчих інтервалів будуть такими

Тобто з ймовірністю 95% перший коефіцієнт p1 полінома знаходиться в інтервалі (0.9678, 1.016), другий p2 - в інтервалі (1.897, 2.145), а третій коефіцієнт p3 - в інтервалі (2.944, 3.213).

Для зміни рівня ймовірності слід в меню View основного вікна програми вибрати пункт Confidence Level і підменю встановити потрібний рівень ймовірності, а потім ще раз зробити підбір параметрів. Наприклад, для рівня ймовірності 90% у попередньому прикладі виходять вужчі довірчі інтервали:

Довірчі інтервали для параметрів моделі обчислюються за такою формулою

деb- знайдені значення параметрів,t- зворотна функція для функції розподілу Стьюдента,S- вектор здіагональних елементів матриціsX T X, деX- матриця плану,s- середньоквадратична помилка.

Межі довірчих смуг, відповідних різним рівням ймовірності, можуть бути побудовані як даних, так наближення.

Для побудови довірчої смуги для даних слід встановити потрібний рівень ймовірності, вибравши в меню View основного вікна програми пункт Confidence Level і встановивши в підменю потрібний рівень ймовірності, а потім вибрати в меню View пункт Prediction Bounds. Наприклад, при наближенні даних

поліномом другого ступеня довірча смуга для даних, що відповідає ймовірності 99% наведена нижче

fitting
Довірча смуга для рівня ймовірності 95%

Довірчі смуги можуть бути побудовані у вікні Analysis (див. Розд. Операції з побудованим наближенням), для відображення якого на екрані слід натиснути однойменну кнопку в основному вікні програми cftool. У ньому слідує:

  1. вказати абсциси точок, у яких проводитиметься аналіз у рядку введення Analyze at Xi=;
  2. встановити прапор Evaluate fit at Xi;
  3. ввести рівень ймовірності у рядок введення Level;
  4. вибрати перемикач For function чи For new observation (залежно від цього, навіщо треба побудувати довірчу смугу, відповідно, наближення чи даних);
  5. встановити прапор Plot results;
  6. натиснути кнопку Apply.

Результат відображається в окремому графічному вікні.