Disallow як створити, особливості та рекомендації

Потрапляючи на курси з SEO-просування, новачки зустрічаються з великою кількістю зрозумілих і не дуже термінів. У всьому цьому розібратися не так вже й просто, особливо якщо спочатку погано пояснили чи згаяли якийсь із моментів. Розглянемо значення у файлі robots.txt Disallow, для чого потрібний цей документ, як його створити та працювати з ним.

Простими словами

Щоб не "годувати" читача складними поясненнями, які зазвичай зустрічаються на спеціалізованих сайтах, краще пояснити все "на пальцях". Пошуковий робот приходить на ваш сайт та індексує сторінки. Після ви дивитеся звіти, які вказують на проблеми, помилки та ін.

Але на сайтах є і така інформація, яка не є обов'язковою для статистики. Наприклад, сторінка «Про компанію» або «Контакти». Усе це необов'язково для індексації, а деяких випадках небажано, оскільки може спотворити статистичні дані. Щоб цього не було, краще закривати ці сторінки від робота. Саме для цього потрібна команда у файлі robots.txt Disallow.

Цей документ завжди є на веб-сайтах. Його створенням займаються розробники та програмісти. Іноді це робити можуть і власники ресурсу, особливо якщо він невеликий. І тут робота з ним не займає багато часу.

Robots.txt називають стандартом винятків пошукового робота. Він подано документом, у якому прописують основні обмеження. Документ поміщають у корінь ресурсу. При цьому так, щоб його можна було знайти шляхом «/robots.txt». Якщо ресурс має кілька піддоменів, то цей файлик поміщається в корінь кожного з них. Стандарт безперервно пов'язаний з іншим – Sitemaps.

Карта сайту

Щоб розуміти повну картину того,чим йдеться, кілька слів про Sitemaps. Це файл, написаний мовою XML. Він зберігає всі дані про ресурс для ПС. За документом можна дізнатися про веб-сторінки, що індексуються роботами.

Файл дає швидкий доступ ПС до будь-якої сторінки, показує останні зміни, частоту та важливість їх. За цими критеріями робот найбільш правильно сканує сайт. Але важливо розуміти, що наявність такого файлу не дає впевненості в тому, що всі сторінки будуть проіндексовані. Він є більшою підказкою на шляху до цього процесу.

Використання

Правильний файл robots.txt використовується добровільно. Сам стандарт з'явився ще 1994 року. Його ухвалив консорціум W3C. З того моменту став використовуватися майже у всіх пошукових машинах. Він потрібний для «дозованого» коригування сканування ресурсу пошуковим роботом. Файл містить комплекс інструкцій, які використовують ПЗ.

Завдяки набору інструментів легко встановлюють файли, сторінки, каталоги, які не можна індексувати. Robots.txt вказує на такі файли, які потрібно перевірити відразу.

Незважаючи на те, що файл можна використовувати добровільно, його створюють практично всі сайти. Це потрібно для того, щоб упорядкувати роботу робота. Інакше він перевірятиме всі сторінки у випадковій послідовності, і крім того, що може пропускати деякі сторінки, створює вагоме навантаження на ресурс.

Також файл використовують, щоб приховати від очей пошукової системи:

Сторінки з особистими даними відвідувачів.
Сторінки, на яких є форми надсилання даних тощо.
Сайти-дзеркала.
Сторінки із результатами пошуку.

Говорячи про заборону пошукової системи, часто використовують поняття «директиви». Цей термін відомий усім програмістам.Він часто замінюється синонімом «вказівка» та використовується разом із «командами». Іноді можуть бути представлені набором конструкцій мови програмування.

Директива Disallow у robots.txt одна з найпоширеніших, але не єдина. Крім неї, є ще кілька, які відповідають за певні вказівки. Наприклад, є User agent, який вказує на роботів пошукової системи. Allow – це протилежна команда Disallow. Вона вказує на дозвіл для сканування деяких сторінок. Далі розглянемо докладніше основні команди.

Звичайно, у файлі robots.txt User agent Disallow не єдині директиви, але одні з найпоширеніших. Саме з них складається більшість файлів для невеликих ресурсів. Візиткою для будь-якої системи все ж таки вважається команда User agent. Це правило створено для того, щоб вказати на роботів, які переглядають інструкції, які будуть написані далі в документі.

Наразі існує 300 пошукових роботів. Якщо ви хочете, щоб кожен із них дотримувався певної вказівки, не слід їх переписувати все навряд. Достатньо буде вказати "User-agent: *". «Зірочка» у разі покаже системам, що такі правила розраховані усім пошукові системи.

Якщо ви створюєте вказівки для Google, тоді потрібно вказати ім'я робота. У цьому випадку використовуйте Googlebot. Якщо в документі буде вказано тільки це ім'я, тоді решта пошукових систем не сприйматиме команди файлу robots.txt: Disallow, Allow і т. д. Вони будуть вважати, що документ порожній, і для них немає інструкцій.

Повний список імен роботів можна знайти в інтернеті. Він дуже довгий, тому якщо вам потрібні вказівки для певних сервісів Google або Yandex, доведеться вказувати конкретні імена.

Про наступнукоманді ми вже говорили багато разів. Disallow таки вказує на те, яка інформація не повинна зчитуватися роботом. Якщо ви хочете показати пошуковим системам весь свій контент, достатньо написати «Disallow:». Так роботи будуть сканувати всі сторінки вашого ресурсу.

Повна заборона індексації в robots.txt "Disallow: /". Якщо ви напишіть так, тоді роботи не скануватимуть ресурс взагалі. Зазвичай це робиться на початкових етапах, під час підготовки до запуску проекту, експериментах і т. д. Якщо сайт вже готовий показати себе, тоді змініть це значення, щоб користувачі могли познайомитися з ним.

Загалом команда універсальна. Це може заблокувати певні елементи. Наприклад, папка, команда «Disallow: /papka/», може заборонити для сканування посилання, файл або документи певного дозволу.

Дозвіл

Щоб дозволити роботу переглядати певні сторінки, файли чи каталоги, використовують директиву Allow. Іноді команда потрібна, щоб робот відвідав файли з певного розділу. Наприклад, якщо це інтернет-магазин, можна зазначити каталог. Інші сторінки не будуть проскановані. Але пам'ятайте, що спочатку потрібно заборонити сайту переглядати весь контент, а потім вказати команду Allow з відкритими сторінками.

Ще одна директива Host. Її використовують не всі веб-майстри. Вона потрібна у тому випадку, якщо ваш ресурс має дзеркала. Тоді це правило є обов'язковим, оскільки вказує роботу "Яндекса" на те, яке із дзеркал є головним, і яке потрібно сканувати.

Система не збивається самостійно і легко знаходить потрібний ресурс за інструкціями, описаними в robots.txt. У файлі сам сайт прописується без вказівки «http://», але тільки в тому випадку, якщо він працює на HTTP. Якщо ж вінвикористовує протокол HTTPS, тоді вказує на цю приставку. Наприклад, "Host: site.com" якщо HTTP, або "Host: https://site.com" у випадку з HTTPS.

Додаткові команди

Це були основні директиви, які вказують на важливі та потрібні команди. Є й менш корисні і не завжди застосовувані вказівки. Наприклад, Crawl-delay задає період, який використовуватиметься між завантаженнями сторінок. Це потрібно для слабких серверів, щоб не покласти їх навалою роботів. Для вказівки параметра використовуються секунди.

Універсальний

Якщо ви не знаєте, як створити правильний robots.txt – не страшно. Крім вказівок є універсальні варіанти цього файлу. Їх можна розміщувати практично на будь-якому сайті. Винятком може стати лише великий ресурс. Але в цьому випадку про файл повинні знати професіонали та займатися ним спеціальні люди.

Універсальний набір директив дозволяє відкривати вміст сайту для індексації. Тут є прописка хоста і вказується карта сайту. Вона дозволяє роботам завжди відвідувати сторінки, обов'язкові для сканування.

Загвоздка в тому, що дані можуть змінюватись в залежності від системи, на якій стоїть ваш ресурс. Тому правила потрібно підбирати, дивлячись на тип сайту та CMS. Якщо ви не впевнені, що створений вами правильний файл, можна перевірити в інструменті вебмайстра Google і "Яндекс".

Якщо ви розумієте, що означає Disallow у robots.txt, це не дає гарантії того, що ви не помилитеся при створенні документа. Існує низка поширених проблем, які виникають у недосвідчених користувачів.

Часто плутають значення директиви. Це може бути пов'язане і з нерозумінням, і з незнанням вказівок. Можливо, користувач просто недодивився і через неуважність переплутав. Наприклад,можуть використовувати для User-agent значення "/", а для Disallow - ім'я робота.

Перелік – це ще одна поширена помилка. Деякі користувачі вважають, що перелік заборонених сторінок, файлів або папок потрібно вказувати поспіль в один рядок. Насправді ж для кожного забороненого чи дозволеного посилання, файлу та папки потрібно писати команду знову і з нового рядка.

Помилки можуть бути викликані неправильною назвою файлу. Пам'ятайте, що він називається robots.txt. Використовуйте для назви нижній регістр без варіацій типу «Robots.txt» або «ROBOTS.txt».

Поле User-agent має бути заповнено завжди. Не залишайте цю директиву без команди. Знову повертаючись до хоста, пам'ятайте, якщо сайт використовує протокол HTTP, то вказувати в команді його не потрібно. Тільки якщо це розширений варіант HTTPS. Не можна залишати директиву Disallow без значення. Якщо вона вам не потрібна, просто не вказуйте її.