Як пошукові системи відрізняють запити користувачів та ботів, SEO кейси

Такі роботи витрачають ресурси пошукових систем і можуть отримати дані про користувачів, які використовуються пошуковими системами для роботи над алгоритмом ранжирування та формуванням пошукових підказок.

Google ще давно попросив веб-майстрів не використовувати автоматичні програми, які додають сторінки або перевіряють позиції. «Такі програми порушують правила використання пошукової системи та перевантажують сервери».

Коли пошукова система відстежує запити, вона збирає велику кількість інформації про користувачів. Наприклад, така інформація може включати як самі ключові слова, так і метадані, пов'язані з ними:

Визначити, був заданий запит користувачем чи роботом, пошукова система може, виходячи з двох групах чинників: фізичних параметрах запиту та її поведінкових характеристиках.

Фізичні параметри запитів користувачів

Один із способів дізнатися, ким був поставлений запит, це відстежити деякі фізичні характеристики запиту.

Обсяг. Користувачі можуть зробити лише лімітовану кількість запитів за певний час. Швидше за все, що вводить 100 запитів за 10 секунд не людина. І тим більше, якщо цей користувач шукав запит голі дівчинки 12 тисяч разів протягом дня.

Місцерозташування.Досить важко одній людині знаходитися відразу в декількох місцях. А пошукова система може зафіксувати, коли користувач з тим самим ID друкує запити з різних, сильно віддалених один від одного міст. Використовувати кілька комп'ютерів для пошуку в Інтернеті - справа звичайна, тільки якщо ці комп'ютери не розділені океаном або кількома тисячами кілометрів. В такому випадку,пошукова система визначає ботнет або користувача, який використовує інструмент для анонімного пошуку та не відключив cookie.

Поведінковіхарактеристики

За фізичними параметрами можна визначити автоматичні запити. Але ці автоматичні запити можуть бути налаштовані так, щоб вони нагадували запити, зроблені звичайним користувачем.

Тому існує поведінкові характеристики, якими можна зрозуміти, що запити автоматично згенеровані. Нижче наведено моделі, за якими Microsoft у своїй заяві на патент збирається розпізнавати, ким був заданий запит.

Люди після введення пошукового запиту зазвичай натискають на один або кілька результатів. Зазвичай, це один клік на кожні десять результатів. У той час, як автоматичні програми не натискають на результати пошуку, тому це може бути сигналом для пошукової машини. Деякі роботи до того ж збирають додаткову інформацію про деякі урли, тому існує кілька моделей, за якими може визначатися активність роботів:

Бот, який не натискає на посилання.
Бот, який кликає на кожне посилання.
Бот, який кликає лише на цільові посилання.

Боти шукають в алфавітному порядку (іноді)

Навряд чи звичайні користувачі, набираючи серію запитів, розподіляють в алфавітному порядку. Тому така модель видає використання автоматичних програм.

Боти шукають, використовуючи спамові слова

Деякі запити характеризуються високою спамленістю та вживанням спам-слів. Тому якщо з одного ID задається велика кількість питань зі спамом, найімовірніше це запити робота. Те саме стосується запитів, які містять звернення до adult-тематики.

Занадто велика кількість слів

Запити, які містять надмірну кількість слів, не характерні для звичайних користувачів. Інше, що може насторожувати з приводу запитів великої довжини, що вони йдуть один за одним ланцюжком, який містить приблизно однаково велику кількість слів у різних запитах.

Періодичність запитів

Час, що проходить між запитами одного користувача може вимірюватися. Це потім дозволяє визначити середній час між запитами або час, який минає від введення запиту до кліку за певним результатом. За допомогою моделі, побудованої таким чином, можна розпізнати запити від користувачів та ботів.

Використання операторів запитів

Велика кількість пошукових запитів, в яких використовуються оператори пошуку (наприклад, allintitle: і allinurl;) виходять від автоматичних програм.

Тут перераховані в повному обсязі методи, які описані у заявці на патент. У документі описано, що може класифікувати запити залежно від цього, з якого джерела надходять запити. Не пояснюється, як ця класифікація використовується.

Коли пошуковій системі серія запитів видається підозрілою, вона просить користувача відповісти на запитання чи розшифрувати CAPTCHA, яка саме для цього і створена.