У складній аналітиці потрібно бути не лише постановником завдання, але й розробником”.
![]() |
| Сергій Яковлєв |
Якщо подивитися на зміну структури розв'язуваних за допомогою ІТ завдань, неважко помітити, що в цьому спектрі незмінно зростає частка аналітичних завдань, сенс яких можна в самому загальному вигляді визначити таким чином: отримання на основі певної оригінальної фактичної інформації якісно нових знань, які допомагають оптимізувати або навіть докорінно поліпшити процес прийняття рішень. При цьому розширення сфери застосування аналітичних методів відбувається, як завжди, одночасно з різних напрямків. З одного боку, аналітика застосовується для вирішення все більш складних та відповідальних завдань, а з іншого — аналітичні засоби стають доступними та необхідними не лише для «елітних» споживачів, а й для масового ринку.
PCWeek: Як би ви охарактеризували зміст завдань бізнес-аналітики і в чому полягає специфіка Big Data?
Сергій Яковлєв: Завдання полягає в тому, щоб отримати нові корисні знання з постійно зростаючого обсягу інформації, яка надходить з різних джерел. Щорічно обсяг відомостей про бізнес збільшується на це вал структурованих і неструктурованих даних, що постійно розширюється. Після очищення від інформаційного шуму з них можна і потрібно отримувати знання.
Щоб вирішити це завдання, доводиться рухатися одразу за декількома напрямками. По-перше, впроваджувати більш ефективні технології пошуку, збору та моніторингу, що охоплюють весь масив даних. По-друге, використовувати ETL-технології для очищення та аналізу цих даних. По-третє, інвестувати в підвищення якості даних і вручну дозбирати відсутні дляповноти картини елементів. Зрештою, останнє і, мабуть, найпростіше завдання — ідентифікувати дані, зводячи неструктуровану інформацію зі структурованою, що надалі дозволить знайти потрібні взаємозв'язки та реально збагатити наші дані.
Виходить, що нам необхідно витягти із зібраних даних крихти потрібної нам інформації на тлі великого шуму. Наприклад, будь-які сигнали про діяльність конкретної компанії, які дозволяють нам розпізнавати компанії-одноденки та реально діючі підприємства. При цьому потрібно вирішувати типові для будь-якої складної задачі проблеми — освоювати нові технології, наймати хороших програмістів, математиків, лінгвістів, а з цим завжди непросто. І, звичайно, треба мати компетенції в прикладній галузі, розуміти, що потрібно нашим клієнтам, щоб витрачати сили на вилучення тих крихт інформації, які реально потрібні та допомагають у прийнятті ними рішень.
PCWeek: У чому суть завдань, які вирішуються за допомогою системи СПАРК?
С. Я.: українська економіка завжди була зоною високих ризиків, а останнім часом все більше цих ризиків з теорії переходять у практику: від обвального падіння цін на нафту до різкого зростання шансів отримати податкові донарахування через присутність у ланцюжку ПДВ фірми- одноденки. Завдання нашої системи - оцінювати всі види ризиків під час роботи з контрагентами. Конкретна організація повинна розуміти: при роботі з одноденною фірмою є дуже висока ймовірність отримати штраф від податкової служби, яка може не визнати платежі за контрактом як витрати.
Але штрафу можна уникнути, якщо компанія покаже, що її зв'язок із фірмою-одноденкою був ненавмисним. Більше того, що ви не просто не знали про те, що ваш контрагент є «нехорошим» партнером, а йробили кроки, щоб переконатися у його благонадійності. Але якщо подивитися арбітражну практику, то ми побачимо, що довести ненавмисність зв'язків із фірмами-одноденками платникам податків в українських судах надзвичайно важко. Суть нашого сервісу полягає в тому, що ми даємо бізнесу не лише інструмент, який дозволяє виявити підозрілих партнерів, а й можливість документально довести в суді, що проводилася перевірка контрагента щодо його сумлінності. І якщо визначити рівень сумлінності завжди можна лише з певною ймовірністю, то мати для суду докази вашої ненавмисності можна практично на сто відсотків.
PCWeek: Давайте для простоти говоритимемо про найчастіший випадок несумлінності — про фірми-одноденки. Хіба це так складно - виявити типовий набір ознак і визначати їх в автоматичному режимі?
С. Я.: Тут ситуація в стилі «гармата та броня» або, точніше, «віруси та ліки». Ми знаходимо ліки проти вірусу, але вірус видозмінюється і потрібно шукати нові ліки.
Відмінності треба шукати глибше, уважно досліджуючи велику кількість непрямих ознак. Благонадійну компанію відрізняють складніші і в основному якісні показники: «живий» сайт, вакансії, що оновлюються, реальні платежі, укладені і виконані держконтракти, наявність ліцензій і т. п. Ось тут ми і приходимо до великих даних: потрібно використовувати маси різних джерел інформації, розкиданих Інтернетом або зібраних у спеціалізованих базах даних численних держорганів. За допомогою цього масиву даних модель оцінки благонадійності компаній поповнилася великою кількістю факторів, які допомагають відрізнити хороші компанії від поганих" і дають платникам податків можливістьрозпізнати у контрагенті «одноденку» ще на етапі знайомства.
PCWeek: Але якщо «одноденки» постійно адаптуються до нових умов, чи не виходить, що ми ганяємося за тінню?
PCWeek: Вирішення подібних завдань — це не лише сучасні технології, а й досить складна математика. Які методи тут застосовуються?
С. Я.: Так, усі ці наші індекси та рейтинги — це дуже цікаве ІТ-завдання, яке пов'язане зі статистичним аналізом величезних масивів даних з використанням різних моделей та оцінкою впливу значущості сотень факторів. Наприклад, для побудови ІДО ми тестували логістичну регресію, гібридну нейронечітку мережу та багатофакторну модель на основі бінарних дерев. Моделі тестувалися на ретельно сформованих «поганих» та «хороших» вибірках, складання яких — окреме ІТ-завдання: наприклад, потрібно проаналізувати певну вибірку рішень арбітражних судів на контекст прояву належної обачності, автоматично знайти ті рішення, де переможцем була ФНП, витягти з знайдених рішень юросіб та ідентифікувати їх. Результатом усієї виконаної роботи ми можемо пишатися — передиктивні показники індексів є досить високі. При цьому сама модель акцептована аналітиками наших американських партнерів — компанією D&B, найбільшим гравцем на ринку баз даних для оцінки кредитних ризиків, а її результати використовуються в їх продуктах по всьому світу.
С.Я.: Щодо актуальності, то тут є хороший комплексний показник — динаміка цього ринку. Так, за нашими оцінками, загальний обсяг українського ринку інформаційних бізнес-систем становить понад 3 млрд. руб. і продовжує зростати на рік, незважаючи на загальний спад економіки країни. Мушу сказати, щоринок подібних систем почав формуватися приблизно з 2000 р. і ми були одним із його піонерів. Бази даних для служб безпеки існували і раніше, але вони були по-справжньому аналітичними, не об'єднували настільки широкого набору джерел. Головне — вони не були відкритими, оскільки містили персональні дані, сірі та просто нелегальні джерела.
Підвищення актуальності перевірки контрагентів на благонадійність визначається двома взаємопов'язаними факторами: безпосередньою зацікавленістю самої компанії у тому, щоб, по-перше, мати справу з перевіреним партнером і, по-друге, відповідати вимогам регулятора. У спрощеному вигляді можна сказати так: щоб не «потрапити на гроші» у першому випадку через те, що вони можуть зникнути разом із контрагентом, у другому – внаслідок штрафу від ФНП.
Поруч із зростанням попиту такі завдання, звісно, розвиваються самі сервіси. Спочатку ми орієнтувалися на те, що користувачами наших сервісів будуть фахівці-аналітики в компаніях, їм потрібно отримувати великий обсяг інформації, яку вони будуть детально вивчати. Але потім фокус почав зміщуватися у бік бізнес-користувача, наприклад директора — йому потрібно отримувати відповідь на запит у більш простому вигляді, на кшталт «так» чи «ні». Це особливо важливо для малих та середніх компаній, вони аналітичних відділів просто немає. У міру розширення числа клієнтів та вдосконалення технологій знижувалася вартість сервісів, вони ставали доступнішими. Крім того, ми розробили API, через них програми замовників можуть працювати з функціоналом наших сервісів в автоматичному режимі.
PCWeek: Як організовано цю роботу в технічному та організаційному плані? Які джерела інформації ви аналізуєте, з якими організаціямиспівпрацюєте?
С. Я.: Ми використовуємо всі доступні публічні дані та збираємо інформацію самі. Усього ми використовуємо кілька сотень джерел. Це відкриті дані органів влади, дані з Інтернету, торгових майданчиків та бірж. Якісь із цих джерел платні, інші — безкоштовні.
Якщо подивитися на СПАРК з точки зору бази даних та її структури, то на завдання проекту задіяно понад 40 фізичних серверів у дата-центрі. БД має розмір близько 20 Тб та зарезервована таким чином, щоб мінімізувати час простою у разі збою основних серверів. Тобто в нас запроваджено повне віддзеркалення. Як СУБД використовуємо Oracle, що довела свою надійність і забезпечує високу продуктивність під навантаженням мільйони запитів на годину. Сервери додатків об'єднані в кластери, що дозволяють балансувати навантаження, що особливо важливо в піковий годинник, і оперативно додавати серверні потужності, коли це необхідно.
PCWeek: А як реалізований ваш лінгвістично-математичний апарат? Ви використовуєте якісь сторонні продукти чи щось розробляєте самі?
PCWeek: Ви вже згадали про те, що питання економічної безпеки виходять за державні кордони. Як ви взаємодієте зі своїми закордонними контрагентами — співпрацюєте чи конкуруєте?
С. Я.: «Знай свого клієнта» — це загальновизнана світова практика, тому в цій сфері працюють багато відомих інформаційних компаній. Найбільша з них - Dun & Bradstreet, з якою у нас створено спільне підприємство. Дуже актуальна у світі та тема оцінки кредитних ризиків, і тут Україні ще є куди розвиватися. Загалом інформаційний ринок України в сегменті B2B йде туди ж, куди ісвітовий, просто іноді з невеликим відставанням у часі.
Щоб використовувати найкращий світовий досвід, застосовувати найсучасніші напрацювання, ми створили на початку систему партнерств. Це, наприклад, кредитне бюро, де нашим партнером є провідний світовий гравець у цьому сегменті – Experian. Ми були, здається, добрими учнями і сьогодні самі робимо системи, які цілком витримують порівняння зі світовими аналогами. Якщо в цілому характеризувати характер наших відносин з іноземними подібними системами, то зараз це радше партнерство, коли кожен більше займається своїм національним інформаційним простором, і меншою мірою — конкуренція. Але при цьому ми не маємо наміру замикатися тільки в рамках України, хочемо просувати свої розробки і за кордон, тим більше, що у нас є справді передові рішення. Наприклад, та сама Dun & Bradsteet тепер у всьому світі використовує наші скоринги щодо українських компаній. Ну а із системою ми стали першою українською компанією, яка вийшла на міжнародний ринок інформаційних систем у галузі протидії відмиванню грошей та боротьби з фінансуванням тероризму.
PCWeek: Дякую за бесіду.
