Графоспам, Nota Bene офіційний блог Євгена Касперського

Намалював він на листку І підписав у куточку:

// Цікаво, цей пост із цим малюнком пролізе через антиспам-фільтри тим, хто підписаний по e-mail?

Поговоримо про дуже цікавий різновид поштового сміття – графічний спам та відповідні захисні технології.

Почну з короткої історичної довідки.

Що було першим графоспамом – невідомо. Але масовим явищем ця хрень стала десь у 2003р. Життя у неї було яскравим, але популярність швидко зійшла нанівець. За кілька років її частка злетіла до 40% від загального обсягу спаму, а потім також швидко впала до сьогоднішніх 6-7%.

Графоспам 2003-4рр. – це, звісно, пісня. Ех, старі-добрі, часи, нам би зараз з таким наївником боротися. Тоді спамери просто засовували текст у гіфи та джпеги і розсилали звичайними каналами. І хоча в тодішніх антиспамових рішеннях не було ніякого навороченого захисту від таких розсилок, їх швидко побороли, просто детектируючи вкладені малюнки за мета-даними (наприклад, за хешем різних характеристик) та випробуваними способами на кшталт перевірки репутації відправника та публічних чорних списків (тоді це ще добре працювало).

Так що приблизно 2004р. тут розпочалася справжня гонка озброєнь. Спамери прочухали, що графоспам має серйозні перспективи – на той момент ще не було продуктів, здатних розпізнавати вміст картинок.

Спочатку спамери зробили спеціальні роботи, які автоматично легенько змінювали розсилаються малюнки (додав піксель - хеш змінився - спам не ловиться - потрібна нова сигнатура). Потім, коли вже з'явилися перші тиражні технології для фільтрації цієї пакості, тут розігралася фантазія! З'явилися всякі прийоми зашумлення, спотворення та приховування. Спамери прикручували різнокольоровийфон, використовували екзотичні вензелясті шрифти, повертали малюнки і розбивали їх на сегменти, робили «літери, що стрибають», змішували текст і графіку, розсилали анімовані гіфи…

І все для того, щоб утруднити антиспаму завдання видерти з графіки контент, проаналізувати його і в разі потреби забанити. Чого тільки не вигадували розробники! Були випадки, що фільтр засовували навіть промислові OCR системи, але ця штука в чистому вигляді не прижилася. По-перше, вона все-таки не ув'язнена на сильні шуми та спотворення – доводилося сильно працювати напилком. А по-друге, дуже вже вона гальмувала і для практики (особливо для серверних рішень) не годилася.

А контент треба було якось видирати. Як інакше зрозуміти, що там на малюнку?

Потрібен був якийсь компроміс щодо продуктивності та точності. І ось проти всіх цих хитро..постей ми вигадали в 2003р. свою хитро..пість :) - технологію GSG.

Зараз розповім трохи деталей про диво GSG - як вона знаходить в малюнках спамерське сміття і ловить за нього спам-листи. Все-все-все розповісти не зможу, тому що ноу-хау, та й взагалі, спамери теж іноді читають блоги.

Перший елемент GSG – екстрактор об'єктів. Його завдання - очистити малюнок від шумів, будь-якої спамерської хроні і випатрати з нього контури об'єктів і передати на аналіз далі.

А контури – це щось. З ними починає працювати евристичний детектор тексту. На цьому етапі система намагається зрозуміти, чи є у малюнку текст. Вона аналізує розміри, положення, між відстанями та інші показники об'єктів. Тут ми використовуємо дуже хитрий алгоритм, дуже стійкий до будь-яких хитрощів на кшталт «стрибають» букв, різних деформацій і шумів. В результаті детекторбудує сигнатуру (дані про наявність тексту, його місцезнаходження та обсяг) і передає її на наступний рівень.

Навіть якщо текст не знайдено – це для нас жодного разу не привід здаватися. Ми нацьковуємо на малюнок OCR-подібну тулзу, яка швидко шукає в контурах знайомі об'єкти. Тут твориться взагалі немислиме технологічне занудство в галузі геометрії опуклих множин, не вантажитиму деталями. Коротко – з контурів знімаються деякі геометричні характеристики (кути дотичних і т.п.), вичленюються дуги та відрізки, будується сигнатура.

А зараз інтерактив! Прочитайте опис GSG ще раз спочатку і засікайте скільки часу це займе. Ага, а ось і «шокуючі факти» - GSG витрачає на аналіз одного малюнка всього... 10-40 мс!!

Загалом, ось такий чарівний «зелений чоловічок», який є в кожному нашому (вашому) серверному та персональному продукті:

На закінчення трохи Дарвінізму.

Якщо графоспам такий весь важкий і всюдисущий (як може здатися), то чому за останні 6 років його частка скоротилася з 40% до 7%? Ефективність текстових антиспамових фільтрів небагато, але буде вище своїх графічних «братів». Здавалося б, рій далі і заробляй більше. Чому спамери забили на цей напрямок?

Мені здається тому є дві причини і обидві вони впираються в одне – спалам спала стало простіше і швидше.

По-перше, змінилася екосистема розсилки спаму. Якщо на початку 2000-х використовували потужності легальних/напівлегальних провайдерів (ну, так, їх доводилося часто міняти – я маю на увазі провайдерів), то зараз це на 90% ботнети. Хрін забаниш. По-друге, сильно підросла пропускна здатність каналу та проникнення широкосмугового доступу.

Здавалося б все навпаки – створено умови для поширення"важкого" графоспаму. Та ні! Не прє! Чому? Та все дуже просто – навіщо напружуватись, коли можна не напружуватись? Краще розсилати більше швидкого та тупого текстового спаму, ніж чаклувати над ефективнішим, але й більш трудомістким графічним спамом. Як результат, у кращих традиціях Дарвінізму переміг найсильніший і найсильнішим тут виявився не найрозумніший, а плідний.

Хоча, у спамерів теж ринкові відносини - у графоспаму, мабуть, є своя унікальна ніша постійних клієнтів (типу поціновувачів) :)