Невізуальні методи захисту сайту від спаму
Невізуальні методи захисту сайту від спаму використовують, зокрема, аналіз переданого тексту. Спамери використовують багато прийомів, щоб ускладнити такий аналіз. Тут буде показано приклади одного з них, а саме підстановки символів. Наведені приклади взяті з даних компанії CleanTalk.
Підстановка символів дуже проста, але в результаті її можуть не працювати фільтри за стоп-словами, можуть гірше працювати байєсовські фільтри, а також фільтри з визначенням мови. Тому перед застосуванням цих фільтрів є сенс повернути символам їх справжнє обличчя.
Проте заміна символів допустима у разі, коли зміст написаного тексту після заміни зберігається. І необхідна для приведення безлічі службових символів до одного.
Тут я покажу два найцікавіші, на мій погляд, способи такої підстановки символів з тих, що зустрілися нам.
1. Заміна символів звичайного зображення
Спамери роблять все, щоб текст впадав у вічі, навіть при побіжному погляді. На щастя їм, Unicode надає набори латинських символів розширеного начертания. На щастя для нас, це легко виправляється.
Нижче наведені найпоширеніші способи, як латинські символи замінюються ті самі латинські, але з основного діапазону латиниці.
| розширені | U+FF01 | ViaGra |
| у рамках основні | U+2460 | x2467-x2467-x2467-x24EA-x24EA-x2460-x2467-x2467-x2467-x2467-x2467-x2467 |
| в рамках додаткові | U+1F130 | 🄲🄰&xx |
| в рамках додаткові | U+1F150 | 🅝🅞🅦 |
| в рамках додаткові | U+1F170 | 🅵🅾🆁 |
| в рамках додаткові | U+1F1E6 | 🇫🇷🇪🇪 |
2. Заміна точки
Найпоширеніші з таких точок, що зустрілися нам, наведені нижче.