Завдання про AUC (ROC), Аналіз малих даних
КвазіНауковий блог Олександра Дьяконова
Завдання про AUC (ROC)
Серед читачів блогу багато тих, хто тільки вчить машинне навчання, і мене часто запитують про різні завдання та вправи, тож починаю рубрику завдання.
Для початку дві вправи, які ми нещодавно розбирали із магістрами ВМК МДУ.
Завдання 1. Розглядається завдання класифікації на два класи. На рис. 1 показані об'єкти у просторі відповідей двох алгоритмів (відповіді речові - до бінаризації по порозі). Обчислити AUC (ROC) алгоритмів.

Завдання 2. Які значення F1-заходи можуть бути у класифікатора в задачі з двома класами, що не перетинаються (позитивним і негативним) і трьома об'єктами?
Рішення див. під катом ... але спочатку спробуйте самі, якщо цікаво.
Рішення 1. 1.1. Спочатку розглянемо проекції на осі (тобто відповіді першого та другого алгоритму), див. рис. 1.2.

1.2. Побудуємо ROC-криві, див. рис 1.2 (по осях - False Positive Rate і True Positive Rate).
1.3. Обчислимо площі під кривими:0.64 та 0.7, див. рис. 1.3.
Рішення 2. Можна чесно розглянути всі можливі випадки, див. рис. 2.1 - виписані всі значенняповноти (те ж, що і True Positive Rate) іточності (те ж, що і Positive Predictive Value):

F1-мера – середнє гармонійне точності та повноти, тобто. чисел із пар (1, 1), (1/2, 1), (2/3, 1), (1/3, 1), (1/2, 1/2), (0, 0). Тому всі можливі значення F1-заходи:1, 0.8, 2/3, 0.5, 0.
Але до відповіді можна здогадатися і швидше;)
Примітка 1.ROC =receiver operating characteristic,AUC =area under the curve.Колимають на увазі "площу під ROC" пишуть AUROC або AUC ROC, я написав AUC (ROC). Іноді кажуть «ROC-крива», що теж зовсім коректно, т.к. C — це перша літера CURVE, але зате звучить добре.
Примітка 2.Як правило, студенти дуже погано розуміють, що таке AUC, як обчислювати це значення, як воно може змінюватись при зміні параметрів алгоритмів. Тому я й складав подібні завдання.