Як ми відфільтрували роботів і знизили показник відмов з 90% до 42%

Кілька місяців тому у нас сильно виріс показник відмов щодо Google Analytics. Ми зробили стандартний набір дій, який рекомендують робити в Мережі: створили в аналітиці подання «без павуків і ботів» (налаштування «Фільтрація роботів» у виставі), перевірили якість налаштування коду Analytics, перевірили та налаштували тривалість сесії тощо. Все це зайняло час, але не дало результатів. Показник відмов у деякі дні перевищував 90%. При цьому якість контенту на нашому сайті або структура вхідного трафіку ніяким чином не змінювалася. Це просто «трапилося відразу» і все. Оскільки нічого подібного описаного в Мережі я не знайшов, вирішив описати, як ми знайшли і виправили проблему і знизили показник відмов до прийнятних 42-55%.

Наведу скріншот для ілюстрації вихідної проблеми:

У результаті я просто відфільтрував у Вебвізорі відвідування з тривалістю 0:00 і вирішив спробувати визначити закономірність. Ось що я отримав:

знизили

Кожен «відвідувач» заходив зі своєї підмережі, з явно вказаним User Agent, роздільною здатністю екрану та операційною системою, тобто для Метрики та Analytics він ніяк не сприймався як бот.

знизили

відфільтрували

є IP-адреса за 4:56, зараз перевірю інші заходи inetnum: 193.150.7.0 — 193.150.7.255 netname: LIGA-UA-NET2 remarks: LIGA ZAKON

По RIPE нічого цікавого ми не знайшли, нічим не примітні IP зі звичайних підмереж. Крім того, що боти ходили з інтервалом 1:01, більше нічого явно спільного в них не було.

Весь знайдений список ми заблокували в iptables.

Протягом доби ми ще виловили кілька нових IP, накидали алгоритм автоматичного фільтрування подібного бот-трафіку на випадок, якщо після блокування одних роботів їм на зміну прийдуть нові.Проте більше нікого не знайшли. Було лише кілька цікавих User Agent, але нікого з інтервалом 1:01.

Ще через добу показник відмов щодо Google Analytics почав приходити в норму і різко впав з 89% до 42,75%.

На сьогодні, майже через тиждень після описаних подій, показник відмов тримається в прийнятних рамках 42-55%, загальну динаміку можна подивитися на графіку. Там, де різке зниження – це ми відфільтрували ботів.

Гіпотези про те «що це було» у нас всього дві.

Перша, це хтось із нас неправильно налаштував якихось моніторних ботів. Ми один час грали з різним софтом для перевірки стану сервера. Могли щось увімкнути та забути. Мінус цієї теорії в тому, що я не пам'ятаю жодного сервісу, який би декларував, що вони надсилають запити з різних підмереж на різні сторінки сайту з різних User Agent. Тому, швидше за все, це не так.

Друга гіпотеза: це якась невідома широкому загалу форма бот-атаки, можливо спрямована саме на підвищення показника відмов і, як наслідок, песимізації у пошуковій видачі Google.