Як працюють DLP-системи розуміємось на технологіях запобігання витоку інформації

Зміст статті

Якщо бути досить послідовним у визначеннях, можна сказати, що інформаційна безпека почалася саме з появи DLP-систем. До цього всі продукти, які займалися інформаційною безпекою, насправді захищали не інформацію, а інфраструктуру — місця зберігання, передачі та обробки даних. Комп'ютер, програма або канал, в яких знаходиться, обробляється або передається конфіденційна інформація, захищаються цими продуктами так само, як і інфраструктура, в якій звертається абсолютно нешкідлива інформація. Тобто саме з появою DLP-продуктів інформаційні системи навчилися відрізняти конфіденційну інформацію від неконфіденційної. Можливо, з вбудовуванням DLP-технологій в інформаційну інфраструктуру компанії зможуть сильно заощадити на захисті інформації, наприклад, використовувати шифрування тільки в тих випадках, коли зберігається або передається конфіденційна інформація, і не шифрувати інформацію в інших випадках.

Лінгвістичний аналіз

Використання стоп-слів («таємно», «конфіденційно» тощо) для блокування вихідних електронних повідомлень у поштових серверах можна вважати прабатьком сучасних DLPсистем. Звичайно, від зловмисників це не захищає — видалити стоп-слово, найчастіше винесене в окремий гриф документа, нескладно, при цьому зміст тексту анітрохи не зміниться.

Поштовх у розробці лінгвістичних технологій було зроблено на початку цього століття творцями електронних фільтрів. Насамперед, для захисту електронної пошти від спаму. Це зараз у антиспамівських технологіях переважають репутаційні методи, а на початку століття йшла справжнялінгвістична війна між снарядом та бронею - спамерами та антиспамерами. Помнете найпростіші методи для обману фільтрів, що базуються на стоп-словах? Заміна літер на схожі літери з інших кодувань або цифри, трансліт, випадково розставлені пробіли, підкреслення або переходи рядків у тексті. Антиспамери досить швидко навчилися боротися з такими хитрощами, але тоді з'явився графічний спам та інші хитрі різновиди небажаної кореспонденції.

Переваги технології

Недоліки технологій

У Німеччині американських виробників лінгвістичних технологій зустріла інша проблема — так звані компаунди, складові слова. У німецькій мові прийнято приєднувати визначення до головного слова, внаслідок чого виходять слова, що іноді складаються з десятка коренів. В англійській мові такого немає, там слово — послідовність букв між двома пробілами, відповідно англійський лінгвістичний двигун виявився нездатним обробити незнайомі довгі слова.

Статистичні методи

Завдання комп'ютерного пошуку значних цитат (чому саме «значних» — трохи пізніше) зацікавило лінгвістів ще в 70-х роках минулого століття, якщо не раніше. Текст розбивався на шматки певного розміру, кожного з яких знімався хеш. Якщо деяка послідовність хешей зустрічалася у двох текстах одночасно, то з великою ймовірністю тексти цих областях збігалися.

Побічним продуктом досліджень у цій галузі є, наприклад, «альтернативна хронологія» Анатолія Фоменка, шановного вченого, котрий займався «кореляціями текстів» та одного разу порівняв українські літописи різних історичних періодів. Здивувавшись, наскільки збігаються літописи різних століть (понад 60%), наприкінці 70-х він висунув теорію, щонаша хронологія на кілька століть коротша. Тому, коли якась DLP-компанія, що виходить на ринок, пропонує «революційну технологію пошуку цитат», можна з великою ймовірністю стверджувати, що нічого, крім нової торгової марки, компанія не створила.

Саме час повернутися до поняття «значна цитата». Ключовою характеристикою складного хеша, що знімається з об'єкта, що захищається (який у різних продуктах називається то Digital Fingerprint, то Document DNA), є крок, з яким знімається хеш. Як можна зрозуміти з опису, такий відбиток є унікальною характеристикою об'єкта і при цьому має свій розмір. Це важливо, оскільки якщо зняти відбитки з мільйонів документів (а це обсяг сховища середнього банку), для зберігання всіх відбитків знадобиться достатня кількість дискового простору. Від кроку хешу залежить розмір такого відбитка — що менше крок, то більше відбиток. Якщо знімати хеш з кроком в один символ, розмір відбитка перевищить розмір самого зразка. Якщо для зменшення «ваги» відбитка збільшити крок (наприклад, 10 000 символів), то разом з цим збільшується ймовірність того, що документ, що містить цитату зі зразка завдовжки 9 900 символів, буде конфіденційним, але проскочить непомітно.

Переваги технології

Недоліки технології

Як і у випадку з лінгвістикою, недоліки технології — зворотний бік переваг. Простота навчання системи (вказав системі файл, і він уже захищений) перекладає користувача відповідальність за навчання системи. Якщо раптом конфіденційний файл виявився не там або не був проіндексований за недбалістю або злим наміром, то система його захищати не буде. Відповідно, компанії, які дбають про захист конфіденційної інформації від витоку, мають передбачитипроцедуру контролю того, як індексуються системою DLP конфіденційні файли.

Ще одна вада — фізичний розмір друку. Автор неодноразово бачив вражаючі пілотні проекти на відбитках, коли DLP-система зі 100% ймовірністю блокує пересилання документів, що містять значні цитати із трьохсот документів-зразків. Однак через рік експлуатації системи у бойовому режимі відбиток кожного вихідного листа порівнюється вже не з трьома сотнями, а з мільйонами відбитків-зразків, що суттєво уповільнює роботу поштової системи, викликаючи затримки у десятки хвилин.

Єдність та боротьба протилежностей

За межами статті залишилося ще кілька типів технологій, які використовуються у DLP-продуктах. До таких належать, наприклад, аналізатор структур, що дозволяє знаходити в об'єктах формальні структури (номери кредитних карток, паспортів, ІПН тощо), які неможливо детектувати ні за допомогою лінгвістики, ні за допомогою відбитків. Також не розкрито тему різного типу міток - від записів в атрибутних полях файлу або просто спеціального найменування файлів до спеціальних криптоконтейнерів. Остання технологія відживає своє, оскільки більшість виробників не винаходити велосипед самостійно, а інтегруватися з виробниками DRM-систем, такими як Oracle IRM або Microsoft RMS.

DLP-продукти — галузь інформаційної безпеки, що швидко розвивається, у деяких виробників нові версії виходять дуже часто, більше одного разу на рік. З нетерпінням чекаємо на появу нових технологій аналізу корпоративного інформаційного поля для збільшення ефективності захисту конфіденційної інформації.