Енциклопедія інтернет-маркетингу складаємо коректний своїми руками, SEO кейси соціалки, реклама,

SEOnews запустив проект для фахівців та клієнтів «Енциклопедія інтернет-маркетингу», у рамках якого редакція публікує навчальні матеріали від провідних агенцій на ринку. У результаті ми плануємо випустити повне, практично корисне та актуальне електронне керівництво.

Складаємо коректний robots.txt своїми руками

Керівник відділу пошукового просування в агентстві Реаспект

Кривий robots.txt, що не враховує всіх тонкощів сайту, може сильно нашкодити його індексації.

Одна неврахована директива, і пошукові системи відразу вивалять у свій індекс всю підноготну сайту, наприклад, як це було в 2011 році з витоком SMS користувачів Мегафона.

Або одна зайва або неправильно складена директива, і частина сайту, або навіть весь сайт, вилетить із індексу пошукових систем, а значить, втратить весь пошуковий трафік.

Якщо ви вже знайомі з основами складання robots.txt, можете відразу переходити до пункту3 «Складання robots.txt».

1. Що таке robots.txt

Для початку визначимося, що являє собою цей файл і навіщо він потрібен.

У довідці Яндекса наведено таке визначення:

Robots.txt - текстовий файл, який містить параметри індексування сайту для роботів пошукових систем.

Сесія (робота пошукової системи) починається із завантаження файлу robots.txt. Якщо файл відсутній, не є текстовим або на запит робота повертається HTTP-статус відмінний від 200 OK, робот вважає, що доступ до документів (сторінок сайту) не обмежений.

Тобто, іншими словами, robots.txt – набір директив, яким однозначно підпорядковуються роботи пошукових системіндексування сайту

Сказано "індексувати" сторінку або розділ, що буде індексувати. Сказано "не індексувати", не буде.

Але, незважаючи на всю важливість файлу, переважна більшість сайтів в українському сегменті інтернету не мають правильно складеного robots.txt.

2. Директиви robots.txt

Порядок включення директив:

Спочатку варто сказати про те, які директиви можуть використовуватися у файлі robots.txt.

User-agent– вказівка робота, для якого складено список директив нижче. Обов'язкова для robots.txt директива, яка вказується на початку файлу.

Основний User-agent пошукової системи Яндекс -Yandex(список роботів Яндекса, яким можна вказати окремі директиви).
Основний User-agent пошукової системи Google -Googlebot(список роботів Google, яким можна вказати окремі директиви).
Якщо список директив вказується для всіх можливих User-agent'ів, ставиться«*»

Disallow– директива заборони індексації документів. Можна вказувати як каталог, і частина назви документа, і повний шлях документа.

Allow- Директива дозволу індексації документів. Є директивою за промовчанням для всіх документів на сайті, якщо не вказано інше.

Використовується для відкриття індексації документів (сині стрілки), які з тієї чи іншої причини знаходяться в каталогах, закритих від індексації (червоні стрілки).
Можна відкривати для індексації документи, в яких містяться певні символи (сині стрілки).
Варто звернути увагу на правила застосування директив Disallow-Allow: «Директиви Allow та Disallow з відповідного User-agent блоку сортуються за довжиноюпрефікса URL (від меншого до більшого) і застосовуються послідовно.

Sitemap– директива для вказівки шляху до файлу xml-картки сайту.

Якщо сайт має більше 1 карти xml, припустимо вказівку кількох шляхів.

" style="border: 1px dashed rgb(172, 172, 172);">

Host- Директива вказівки головного дзеркала сайту. Враховується лише роботами Яндекса.

Crawl-delay– директива вказівки мінімального часу (у секундах) між закінченням завантаження однієї сторінки та початком завантаження наступної. Враховується лише роботами Яндекса. Директива використовується, щоб роботи пошукових систем не перевантажували сайт.

Для обмеження часу між закінченням завантаження однієї сторінки та початком завантаження наступної в пошуковій системі Google використовується функція «Налаштування сайту» у Google Search Console

Може використовуватися для видалення позначок відстеження, фільтрів, ідентифікаторів сесій та інших параметрів.
Для правильної обробки міток роботами Google використовується функція «Параметри URL» у Google Search Console.

2. Використання Google Search Console (GSC)

Як говорилося раніше, частину функцій, які можна вказати для роботів Яндекса в robots.txt, для роботів Google треба вказувати в Google Search Console.

Щоб вказатиголовне дзеркалоу Google необхідно підтвердити обидва дзеркала (www.site.ru та site.ru) у GSC. Зайти в налаштування сайту (знак шестерні), там вибрати посилання «Налаштування сайту» та у блоці «Основний домен» вибрати головне дзеркало та зберегти зміни.

Щобобмежити швидкість сканування сайтуроботами Google, необхідно підтвердити сайт у GSC. Зайти до налаштуваньсайту (знак шестерні), там вибрати посилання "Налаштування сайту", у блоці "Частота сканування" вибрати пункт "Обмежити максимальну швидкість сканування Google" і виставити прийнятне значення, після чого зберегти зміни.

Якщо робот Google вже знайшов якісь параметри на сайті, ви побачите список цих параметрів у таблиці і зможете подивитися приклади таких сторінок.

3. Складання robots.txt

1. Насамперед додамо в robots.txt три User-Agent з одним порожнім рядком між кожною директивою

User-agent: Yandex
User-agent: Googlebot
User-agent: *

Третій User-Agent додається через те, що для роботів кожної пошукової системи набори директив будуть відрізнятися.

2. Кожному User-agent'у рекомендується додати директиви заборони індексації найпоширеніших форматів документів.

Disallow: *.pdf
Disallow: *.xls
Disallow: *.doc
Disallow: *.ppt
Disallow: *.txt

Документи закриваються від індексації з тієї причини, що вони можуть «перетягнути» на себе релевантність і потрапляти у видачу замість цільових сторінок, що просуваються.

3. Кожному User-agent'у додаємо директиву дозволу індексації JS та CSS файлів

JS та CSS файли відкриваються для індексації, оскільки часто вони знаходяться в каталогах системних папок, але вони потрібні для правильного індексування сайту роботами пошукових систем.

4. Кожному User-agent'у додаємо директиву дозволу індексації найпоширеніших форматів зображень.

Картинки відкриваємо для унеможливлення випадкової заборони їх для індексації.

Так само як і з документами, якщо зараз у вас на сайті немає графічних зображень у якомусь ізперерахованих форматах, все одно краще залишити ці рядки.

5. Для User-agent'а Yandex додаємо директиву видалення міток відстеження, щоб унеможливити появи дублів сторінок в індексі пошукових систем

6. Ці параметри закриваємо в GSC у розділі «Параметри URL»

7. Для User-agent'а «*» закриваємо мітки відстеження стандартною директивою заборони

Disallow: *utm
Disallow: *cl &8;. Далі завдання закрити від індексації всі службові документи, непотрібні документи для пошуку та дублі інших сторінок. Директиви заборони копіюються для кожного User-agent'а. Приклад таких сторінок:

Адміністраторська частина сайту
Персональні розділи користувачів
Кошики та етапи оформлення
Фільтри та сортування в каталогах

9. Останньою директивою для User-agent'у Yandex вказується головне дзеркало

10. Останньою директивою після всіх директив через порожній рядок вказуються директиви xml-карт сайту, якщо такі використовуються на сайті

Після всіх маніпуляцій повинен вийти готовий файл robots.txt, який можна використовувати на сайті.

Шаблон, який можна взяти за основу при складанні robots.txt

" style="border: 1px dashed rgb(172, 172, 172);">

# Найпоширеніші розширення документів

# Потрібно для правильної обробки ПС

# За наявності фільтрів та параметрів додаємо і їх у Clean-param

Allow: /*/ папка містить css>/*.css

Allow: /*/ папка містить js>/*.js

Allow: /*/ папка містить медіа файли >/*.jpg

# Google мітки, фільтри та параметри закриваються в GSC-Сканування-Параметри URL

# Мітки, фільтри та параметридля інших ПС закриваємо за класичним стандартом

Allow: /*/ папка містить css>/*.css

Allow: /*/ папка містить js>/*.js

Sitemap: http://site.ru/sitemap.xml

Важливо!Коли копіюєте шаблон у текстовий файл, не забудьте прибрати зайві порожні рядки.

Порожні рядки в robots.txt повинні бути лише:

Між останньою директивою одного User-agent'а та наступним User-agent'ом.
Останньою директивою останнього User-agent'а та директивою Sitemap.

4. Поширені помилки

Хоча складання правильного robots.txt завдання не найскладніше, але є поширені помилки, які багато хто припускає, і від яких ми хочемо вас попередити.

4.1. Повне закриття сайту від індексації

" style="border: 1px dashed rgb(172, 172, 172);">

Така помилка призводить до вилучення всіх сторінок з індексу пошукових систем та повної втрати пошукового трафіку.

4.2. Не закриття від індексації міток відстеження

Ця помилка може призвести до появи великої кількості дублів сторінок, що негативно позначиться на просуванні сайту

4.3. Неправильне дзеркало сайту

" style="border: 1px dashed rgb(172, 172, 172);">

Host: site.ru # В той час, як правильне дзеркало sub.site.ru

Найімовірніше, у більшості випадків Яндекс просто проігнорує цю директиву, але якщо, наприклад, у вас є кілька судбоменів для різних регіонів, то є ймовірність того, що дзеркала просто «склеяться».