Використання дерев рішень для оцінки кредитоспроможності фізичних осіб, BaseGroup Labs

Існуюча система оцінки кредитоспроможності фізичних осіб

При кредитуванні фізичних осіб характерні невеликі розміри позичок, що породжує великий обсяг роботи з їх оформлення та досить дорога процедура оцінки кредитоспроможності щодо прибутку, що отримується в результаті. Для оцінки кредитоспроможності фізичних осіб банку необхідно оцінити як фінансове становище позичальника, і його особисті якості. При цьому кредитний ризик складається з ризику неповернення основної суми боргу та відсотків за цією сумою. Наразі для оцінки ризику кредитування позичальника використовується скоринг кредитування. Сутність цієї методики у тому, кожен чинник, характеризує позичальника, має власну кількісну оцінку. Підсумовуючи отримані бали, можна отримати оцінку кредитоспроможності фізичної особи. Кожен параметр має максимально можливий поріг, який є вищим для важливих питань і нижчим для другорядних. На сьогоднішній день відомо досить багато методик кредитного скорингу. Однією з найвідоміших є модель Дюрана. Дюран виявив групи факторів, що дозволяють максимально визначити рівень кредитного ризику. Також він визначив коефіцієнти для різних факторів, що характеризують кредитоспроможність фізичної особи:

  1. Стать: жіноча (0.40), чоловіча (0)
  2. Вік: 0.1 бал за кожен рік понад 20 років, але не більше ніж 0.30
  3. Термін проживання в цій місцевості: 0.042 за кожний рік, але не більше ніж 0.42
  4. Професія 0.55 – за професію з низьким ризиком; 0 – за професію з високим ризиком; 0.16 – інші професії
  5. Фінансові показники: наявність банківського рахунку – 0,45; наявність нерухомості – 0,35; наявність полісу зі страхування – 0.19
  6. Робота: 0.21 – підприємства у громадській галузі, 0 – інші
  7. Зайнятість: 0.059 – за кожний рік роботи на цьому підприємстві

Також він визначив поріг, перейшовши який, людина вважалася кредитоспроможною. Цей поріг дорівнює 1.25, тобто. якщо набрана сума балів більша або дорівнює 1.25, то потенційному позичальнику видається сума, яку він запитує.

Недоліки скорингової системи оцінки кредитоспроможності фізичних осіб

Основним недоліком скорингової системи оцінки кредитоспроможності фізичних осіб є те, що вона дуже погано адаптується. А система, що використовується для оцінки кредитоспроможності, повинна відповідати справжньому стану справ. Наприклад, у США вважається плюсом, якщо людина змінила багато місць роботи, що говорило про те, що вона потрібна. У СРСР навпаки - дана обставина говорила про те, що людина або не може ужитися з колективом, або це малоцінний фахівець, а відповідно підвищується ймовірність прострочення платежів. Іншим прикладом відмінності вагових коефіцієнтів може бути те, що й у СРСР наявність власного автомобіля говорило про хороше фінансове становище позичальника, нині це наявність майже нічого не говорить. Таким чином, адаптувати модель просто необхідно як для різних періодів часу, так і для різних країн і навіть для різних регіонів країни.

Для адаптації скорингової моделі оцінки кредитоспроможності фізичних осіб спеціалісту необхідно проходити шлях, подібний до того, що пройшов Дюран, тобто фахівці, які займатимуться такою адаптацією, повинні бути високо кваліфікованими, а отже і дуже високооплачуваними, бути в змозі оцінити поточну ситуацію на ринку. Результатом такого роду роботи буде набір факторів з ваговими коефіцієнтами плюсякийсь поріг (значення), подолавши який людина, який звернувся за кредитом, вважається здатним погасити позику і відсотки. Отримані результати є переважно суб'єктивним думкою і, зазвичай, погано підкріплені статистикою (статистично необгрунтовані). Як наслідок цього, отримана модель не повною мірою відповідає поточній дійсності. Фінансовим результатом такого підходу є те, що у відсотковій ставці кредитування пропонованої банком велику частку займатиме частина, що покриватиме ризик неплатежів.

Отже, основні недоліки скорингової системи оцінки кредитоспроможності фізичних осіб – це:

  1. Висока вартість адаптації моделі, що використовується під поточний стан справ;
  2. Велика ймовірність помилки моделі щодо кредитоспроможності потенційного позичальника, обумовлена ​​суб'єктивним думкою фахівця.

Дерева рішень як варіант вирішення проблеми усунення недоліків скорингової системи

Одним із варіантів розв'язання вищезазначеної задачі є застосування алгоритмів, що вирішують задачі класифікації. Завдання класифікації - це завдання віднесення будь-якого об'єкта (потенційний позичальник) до одного із заздалегідь відомих класів (Давати/Не давати кредит). Такі завдання з великим успіхом вирішуються одним з методів Data Mining – за допомогою дерев рішень. Дерева рішень – один із методів автоматичного аналізу даних. Отримувана модель - це спосіб подання правил в ієрархічній, послідовній структурі, де кожному об'єкту відповідає єдиний вузол, що дає рішення. Приклад дерева наведено на рис. 1 .

дерев

Сутність цього методу полягає в наступному:

  1. На основі даних за минулі періоди будується дерево. При цьомуклас кожної із ситуацій, на основі яких будується дерево, заздалегідь відомий. У нашому випадку повинно бути відомо, чи було повернено основну суму боргу та відсотки і чи не було прострочень у платежах. При побудові дерева всі відомі ситуації навчальної вибірки спочатку потрапляють у верхній вузол, та був розподіляються по вузлам, які також можуть бути розбиті на дочірні вузли. Критерій розбиття – це різні значення будь-якого вхідного чинника. Для визначення поля, яким відбуватиметься розбиття, використовується показник, званий ентропія – міра невизначеності. Вибирається те поле, при розбитті яким усувається більше невизначеності. Невизначеність тим вище, що більше домішок (об'єктів, які стосуються різних класів) перебувають у одному вузлі. Ентропія дорівнює нулю, якщо у вузлі будуть об'єкти, що належать до одного класу.
  2. Отриману модель використовують при визначенні класу (Давати/Не давати кредит) ситуацій, що знову виникли (надійшла заявка на отримання кредиту).
  3. При істотному зміні поточної ситуації над ринком, дерево можна перебудувати, тобто. адаптувати до існуючої ситуації.

Практичний приклад

Для демонстрації подібної технології використовуватиметься програма Tree Analyzer з пакету Deductor ver.3. Як вихідні дані була взята вибірка, що складається з 1000 записів, де кожен запис - це опис характеристик позичальника і параметр, що описує його поведінку під час погашення позички. Під час навчання дерева використовувалися такі чинники, що визначають позичальника: "N Паспорта"; "ПІБ"; "Адреса"; "Розмір позички"; "Термін позички"; "Мета позички"; "Середньомісячний дохід"; "Середньомісячна витрата"; "Основний напрямок витрат"; "Наявність нерухомості"; "Наявністьавтотранспорту"; "Наявність банківського рахунку"; "Наявність страховки"; "Назва організації"; "Галузева приналежність підприємства"; "Термін роботи на даному підприємстві"; "Напрямок діяльності позичальника"; ; "Сімейний стан"; "Кількість років"; "Кількість утриманців"; "Термін проживання в даній місцевості"; "Забезпеченість позики"; "Давати кредит". , "Назва організації" визначена алгоритмом вже до початку побудови дерева рішень як непридатні (рис. 2) через практичну унікальність кожного з значень.

рішень

Цільовим полем є поле "Давати кредит", що приймає значення "Так" (True) і "Ні" (False). Ці значення можна інтерпретувати так: "Ні" - платник або сильно прострочив з платежами, або не повернув частину грошей, "Так" - протилежність "Ні".

Після процесу побудови дерева рішень за допомогою програми Tree Analyzer отримуємо наступну модель оцінки кредитоспроможності фізичних осіб, що описує ситуацію, що відноситься до певного банку. Ця модель представлена ​​як ієрархічної структури правил – дерева рішень (рис. 3).

оцінки

Аналізуючи отримане дерево рішень (див.рис. 3), можна сказати наступне:

  1. За допомогою дерева рішень можна проводити аналіз значних чинників. Таке можливе завдяки тому, що для визначення параметра кожному рівні ієрархії, яким відбувається поділ на дочірні вузли, використовується критерій найбільшого усунення невизначеності. Таким чином, більш значущі фактори, за якими проводиться класифікація, знаходяться на ближчій відстані (глибині) від кореня дерева, ніж менш значущі. Наприклад, фактор "Забезпеченість позики"Найбільш значущий, ніж чинник "Термін проживання у цій місцевості". А фактор "Основний напрямок витрат" значимий лише у поєднанні з іншими факторами. Ще одним цікавим прикладом значущості різних факторів є відсутність у побудованому дереві параметра "Наявність автотранспорту", що говорить про те, що на сьогоднішній день ця наявність не є визначальною в оцінці кредитоспроможності фізичної особи.
  2. Можна зауважити, що такі показники як "Розмір позички", "Термін позички", "Середньомісячний дохід" та "Середньомісячна витрата" взагалі відсутні в отриманому дереві. Цей факт можна пояснити тим, що у вихідних даних є такий показник як "Забезпеченість позики", і т.к. цей фактор є точним узагальненням 4 вищеописаних показників, алгоритм побудови дерева рішень вибрав саме його.

Дуже важливою особливістю побудованої моделі є те, що правила, за якими визначається належність позичальника до тієї чи іншої групи, записані природною мовою. Наприклад, на основі побудованої моделі виходять такі правила:

  1. ЯКЩО Забезпеченість позики = Так І Термін проживання в цій місцевості, років > 5.5 І Кількість років > 19.5 І Наявність нерухомості = Так І Наявність банківського рахунку = Так ТО Давати кредит =Так(Достовірно на 98%)
  2. ЯКЩО Забезпеченість позики = Так І Термін проживання в цій місцевості, років > 5.5 І Наявність нерухомості = Так І Кількість років > 21.5 І Термін роботи на цьому напрямку, років І Стать = Чоловік І Наявність банківського рахунку = Ні І Основний напрямок витрат = Одяг, продукти харчування тощо. ТО Давати кредит =Ні(Достовірно на 88%)

Правильно побудоване на даних минулих періодів дерево рішення має одну ще дуже важливу особливість. ЦяОсобливість називається "здатність до узагальнення", т. е. якщо виникає нова ситуація (звернувся потенційний позичальник), то швидше за все такі ситуації вже були досить багато. Внаслідок чого можна з великою часткою впевненості сказати, що позичальник, що знову звернувся, поведеться так само, як і ті позичальники, характеристики яких дуже схожі на характеристики знову звернувся.

На основі побудованої моделі можна визначати належність потенційного позичальника одного з класів. Для цього необхідно скористатися діалоговим вікном "Експеримент" програми Tree Analyzer (рис. 4), в якому, послідовно відповідаючи на запитання, можна отримати відповідь на питання: "Чи давати кредит".

оцінки

Приклад отримання результату.

Запитання: Забезпеченість позики: Так > Наявність нерухомості: Так > Стать: Чоловік > Наявність банківського рахунку: Ні > Основний напрямок витрат: Купівля товарів тривалого користування.

Відповідь: Кредит давати: Так (достовірно на 96%)

Використовуючи такий підхід, можна усунути відразу обидва вищеописані недоліки скорингової системи оцінки кредитоспроможності.

  1. Вартість адаптації зводиться практично до мінімуму за рахунок того, що алгоритми побудови моделі класифікації (дерево рішень) – це моделі, що самоадаптуються (втручання людини мінімально)
  2. Якість результату досить велике за рахунок того, що алгоритм вибирає найбільш значущі фактори для визначення кінцевої відповіді. Плюс до всього, отриманий результат є статистично обґрунтованим.

Висновок

Наведений вище приклад – це досить грубий варіант того, як можна використовувати методи інтелектуального аналізу даних, зокрема дерева рішень, для досягнення поставленоїЗавдання: зменшення ризику при операціях кредитування фізичних осіб. Хоча і за такого першого наближення спостерігаються позитивні результати. Подальші вдосконалення можуть торкатися таких моментів, як: більш точний підбір визначальних позичальника чинників; зміна самої постановки задачі, наприклад, замість двох значень цільового параметра, можна використовувати більш детальну інформацію (Повернув/Не повернув/Не вчасно) або використовувати як цільове значення ймовірність того, що гроші виплачені вчасно; у цій статті жодного слова не йдеться про очищення даних, хоча, як показує практика, використання передобробки вихідних даних дозволяє значно покращити якість результату і є важливим етапом при комплексному підході до вирішення будь-якого завдання аналізу даних.