Налаштування robots

Файл robots.txt, що знаходиться в кореневій директорії (папці) сайту, має неабияке значення для правильної індексації сайту пошуковими системами. Саме командами, які у цьому файлі, пошуковий робот керується, які сторінки можна індексувати і які заборонено.

Нерідко виникає ситуація, коли розробники сайту "забувають" про створення robots.txt, оскільки відсутність robots.txt трактується як дозвіл повністю індексувати сторінки на розсуд робота.

На жаль, пошукові роботи ще далекі від точної оцінки корисності тих чи інших сторінок, які вони виявили на сайті. Адже сайт складається не тільки з публічних сторінок, але й сторінок, які можуть містити конфіденційну інформацію або технічну інформацію про сайт, поява таких сторінок у громадському доступі в інтернеті може спричинити серйозні неприємності для власників такого сайту.

За прикладами далеко не ходить. Багато хто пам'ятає торішній скандал про федерального стільникового оператора, коли сторінки з особистим листуванням клієнтів на сайті Мегафону опинилися у публічному доступі. Або знову ж таки прокол самої пошукової системи Яндекс, коли службове листування співробітників Яндекса з внутрішнього піддомену опинилося в результатах пошуку.

Поява конфіденційних документів у публічному доступі не тільки підриває імідж компанії, а й може слугувати ключем до злому сайту хакерами з викраденням або знищенням наявних даних.

Нижче наведено основні директиви, які використовуються для настроювання індексації сайту пошуковими системами через robots.txt.

Для Яндекса використовується значення Yandex

Для Google використовується значення Googlebot

Для Mail використовується значення Mail.Ru

Для Bing використовуєтьсязначення MSNBot

Це чотири основні пошукові системи Рунету, на які припадає основний пошуковий трафік, тому власник сайту має налаштувати сайт під індексацію саме цих пошукових роботів.

Загальна група директив для всіх пошукових роботів позначається *

Disallow та Allow

Друга директива, що йде після User-Agent, присутність якої обов'язково, якщо треба заборонити до індексації частину сайту, це директива Disallow (забороняє індексувати) та Allow (дозволяє індексувати) для вибраного розділу сайту:

Якщо нам потрібно заборонити індексувати весь сайт від усіх пошукових роботів:

А якщо потрібно заборонити індексувати весь сайт, але дозволити до індексації сторінки, що починаються на /news:

User-Agent: * Disallow: / Allow: /news

У цьому прикладі першою директивою забороняється до індексації весь сайт, а другою директивою вноситься виняток.

Директиви Allow і Disallow рівнозначні - порядок слідування не важливий, важливе їх співвідношення між собою:

User-Agent: * Allow: /katalog Disallow: /

те саме, що і

User-Agent: * Disallow: / Allow: /katalog

Відсутність параметра директив Allow і Disallow трактується назад, тобто. Disallow: / те саме, що і Allow: - заборонити все до індексації. Allow: / та Disallow: - дозволити все до індексації.

Спецсимволи * та $

За допомогою спецсимволів можна будувати регулярні вирази.

Символ * означає будь-яку послідовність символів (в т.ч. порожню).

Символ $ використовується для скасування символу * за промовчанням.

Заборонимо до індексації на сайті всі файли з розширенням.

User-Agent: * Disallow: *.pdf$

Заборонимо до індексації картинки форматів .jpg та .gif насайті у розділі /katalog, а також сторінку /files/:

User-Agent: * Disallow: /katalog*.jpg Disallow: /katalog*.gif Disallow: /files/$

Слід зазначити, що ці директиви працюватимуть всім пошукових роботів незалежно від їх типу. Якщо, наприклад, потрібно заборонити індексацію картинки з сайту роботом Яндекса і дозволити індексувати текст, то в цьому випадку потрібно для окремих пошукових роботів однієї пошукової системи писати свої правила.

Створення директив для різних пошукових роботів

Іноді виникає необхідність створення різних директив для різних роботів, у цьому випадку вони пишуться в одному файлі robots.txt групами команд.

Групи директив поділяються між собою одним порожнім рядком - це обов'язкова умова їхньої коректної роботи.

Робот Яндекса індексує картинки YandexImages. Заборонимо до індексації сайт для робота Яндекс.Картинок. У цьому інших роботів, зокрема. Яндекса, сайт залишається доступним:

User-Agent: YandexImages Disallow: /

Заборонимо сайт для індексації в пошукових системах Bing і Mail.Ru, якими користується мало користувачів, але навантаження створюване їх роботами на сайт дуже високе.

User-Agent: Mail.Ru Disallow: /

User-Agent: MSNBot Disallow: /

Директива Host використовується, коли сайт має кілька копій (дзеркал), які все індексуються роботами і, тим самим, не тільки створюють додаткове навантаження на сервер, але і по-різному вибирають головне дзеркало сайту.

User-Agent: * Disallow: Host: site.ru

Крім коректного відображення сайту в пошуковій видачі, склеювання доменів необхідне при просуванні сайту. При посилальному просуванні дуже важливо, щоб домен був не тільки "склеєний" пошуковою системою, а й посиланнязакуповувалися на той домен, який є головним дзеркалом сайту.

Директива Host задається лише один раз у файлі robots.txt.

Індексація robots.txt

Незважаючи на те, що пошукові роботи регулярно проводять індексацію сторінок сайтів, внесені зміни директиви до robots.txt з'являться в результатах видачі не миттєво. Стандартний термін урахування змін у robots.txt приблизно 2 тижні. Для різних пошукових систем та сайтів цей час може коливатись у дуже значних межах.

Варто звернути увагу на максимально допустимий обсяг файлу robots.txt – 32 кб. Якщо файл більший за розмір, то пошуковий робот не зможе його завантажити і це буде витлумачено, як:

тобто. сайт повністю дозволений для індексації всіма роботами.