Вчимося використовувати
Де розміщувати файл robots.txt? .
Не забувайте, що URL чутливі до регістру, і назва файлу /robots.txt повинна бути написана повністю в нижньому регістрі. Robots.txt - не так. robots.txt - вірно.
Що писати у файл robots.txt?Наприклад:
У цьому прикладі заборонено індексацію трьох директорій. Зауважте, що кожна директорія вказана на окремому рядку – не можна написати "Disallow: /cgi-bin/ /tmp/". Не можна також розбивати одну інструкцію Disallow або User-agent кілька рядків, т.к. перенесення рядка використовується відділення інструкцій друг від друга. Регулярні вирази та символи підстановки також не можна використовувати. "Зірочка" (*) в інструкції User-agent означає "будь-який робот". Інструкції типу «Disallow: *.gif» або «User-agent: Ya*» не підтримуються. Конкретні вказівки в robots.txt залежать від вашого сайту і того, що ви захочете закрити від індексації.
Як заборонити весь сайт для індексації всіма роботами?
Як дозволити всім роботам індексувати весь сайт?
Або створити порожній файл "/robots.txt".
Як закрити від індексації лише кілька каталогів?
Як заборонити індексацію сайту лише для одного робота?
Як дозволити індексацію сайту одному роботу і заборонити всім іншим?
User-agent: Yandex Disallow:
Як заборонити індексацію всього сайту, крім головної сторінки?Приклад реалізації:
Як заборонитидо індексації все файли крім одного?Це досить складно, т.к. немає інструкції “Allow”. Натомість можна перемістити всі файли крім того, який ви хочете дозволити до індексації в піддиректорію та заборонити її індексацію:
Або можна заборонити всі заборонені до індексації файли:
Додано через 4 хвилиниRobots.txt - загальна інформація1. Введення 2. Поняття файлу robots.txt та вимоги до нього 3. Вміст файлу robots.txt 4. Приклади файлів robots.txt 5. Помилки, пов'язані з файлом robots.txt 6. Висновок
Технічні аспекти створеного сайту відіграють не менш важливу роль для просування сайту в пошукових системах, ніж його наповнення. Одним із найбільш важливих технічних аспектів є індексування сайту, тобто визначення областей сайту (файлів та директорій), які можуть або не можуть бути проіндексовані роботами пошукових систем. Для цього використовується спеціальний файл robots.txt.
- всі літери в назві файлу повинні бути великими, тобто повинні мати нижній регістр: robots.txt - правильно, robots.txt або ROBOTS.TXT - не правильно;
файл robots.txt повинен створюватись у текстовому форматі Unix. При копіюванні файлу на сайт, ftp-клієнт повинен бути налаштований на текстовий режим обміну файлами;
файл robots.txt має бути розміщений у кореневому каталозі сайту.
Передбачається наступний формат рядків файлу robots.txt:
ім'я_запису[необов'язкові прогалини]:[необов'язкові пробіли]значення[необов'язкові прогалини]
Щоб файл robots.txt вважався вірним, необхідно, щоб, як мінімум, одна директива Disallow була присутня після кожного запису User-agent. Повністю порожній файлrobots.txt еквівалентний його відсутності, що передбачає дозвіл на індексування всього сайту.
Запис «User-agent» має містити назву пошукового робота. У цьому записі можна вказати кожному конкретному роботу, які сторінки сайту індексувати, а які ні.
Приклад запису "User-agent", де звернення відбувається до всіх пошукових систем без винятків і використовується символ "*": User-agent: *
Приклад запису "User-agent", де звернення відбувається тільки до роботи пошукової системи Rambler: User-agent: StackRambler
- на сайтах багатьох пошукових систем є спеціалізований розділ «допомога веб-майстру», в якому часто вказується назва пошукового робота;
Приклад (сайт повністю відкритий для індексування):Disallow:
Приклад (сайт повністю заборонено до індексації. Для цього використовується символ "/"): Disallow: /
Приклад (для індексування заборонено файл "page.htm", що знаходиться в кореневому каталозі і файл "page2.htm", що знаходиться в директорії "dir"):Disallow: /page.htmDisallow: /dir/page2.htm
Приклад (для індексування заборонені директорії cgi-bin і forum і, отже, весь вміст даної директорії):Disallow: /cgi-bin/Disallow: / forum/
Можливе закриття від індексування ряду документів та (або) директорій, що починаються з тих самих символів, використовуючи лише один запис «Disallow». Для цього необхідно прописати початкові однакові символи без похилої риси, що закриває.
Приклад (для індексування заборонені директорія «dir», а також всі файли та директорії, що починаються літерами «dir», тобто файли: «dir.htm», «direct.htm», директорії: «dir», «directory1 », «Directory2» і т. д.):Disallow:/dir
Деякі пошукові системи дозволяють використання регулярних виразів у записі Disallow. Так, наприклад, пошукова система Google підтримує в запису Disallow символи * (означає будь-яку послідовність символів) і $ (закінчення рядка). Це дозволяє заборонити індексування певного типу файлів.
Приклад (заборона індексації файлів з розширенням "htm"):Disallow: *.htm$
Для сумісності з пошуковими роботами, які при обробці файлу robots.txt не сприймають директиву Host, необхідно додавати запис «Host» безпосередньо після записів Disallow.
Приклад: www.site.ru - основне дзеркало:Host: www.site.ru
Приклад файлу robots.txt, що дозволяє всім роботам індексувати весь сайт:
User-agent: * Disallow: Host: www.site.ru
Приклад файлу robots.txt, що забороняє всім роботам індексування сайту:
User-agent: * Disallow: / Host: www.site.ru
Приклад файлу robots.txt, що забороняє всім роботам індексування директорії «abc», а також всіх директорій та файлів, що починаються із символів «abc».
User-agent: * Disallow: /abc Host: www.site.ru
Приклад файлу robots.txt, що забороняє індексування сторінки "page.htm", що знаходиться в кореневому каталозі сайту, пошуковим роботом "googlebot":
User-agent: googlebot Disallow: /page.htm Host: www.site.ru
Приклад файлу robots.txt, що забороняє індексування:
- Роботу "googlebot" - сторінки "page1.htm", що знаходиться в директорії "directory"; – роботу «Yandex» – всі директорії та сторінки, що починаються символами «dir» (/dir/, /direct/, dir.htm, direction.htm, і т. д.) і що знаходяться в кореневому каталозі сайту.
User-agent: googlebot Disallow:/directory/page1.htm
User-agent: Yandex Disallow: /dir Host: www.site.ru
Одна з найпоширеніших помилок – синтоксис.
Неправильно:User-agent: * Disallow: Yandex
Вірно:User-agent: Yandex Disallow: *
Запис Disallow містить кілька директив.
Неправильно:User-agent: * Disallow: /dir/ /cgi-bin/ /forum/
Вірно:User-agent: * Disallow: /dir/ Disallow: /cgi-bin/ Disallow: /forum/
Помилка під час копіювання файлу. Часто robots.txt копіюється у форматі Unix, а Dos. Незважаючи на те, що через поширеність цієї помилки багато пошукових робіт вже можуть правильно розуміти дані з robots.txt, це вважається помилкою.
Якщо при обробці помилки 404 (документ не знайдено), веб-сервер видає спеціальну сторінку, і при цьому файл robots.txt відсутня, то можлива ситуація, коли пошуковому роботі при запиті файлу robots.txt видається та сама спеціальна сторінка, що ніяк не є файлом управління індексування.
Помилка, пов'язана з неправильним використанням регістру у файлі robots.txt. Наприклад, якщо необхідно закрити директорію cgi-bin, то в записі Disallow не можна писати назву директорії у верхньому регістрі cgi-bin.
Неправильно:User-agent: * Disallow: /CGI-BIN/
Вірно:User-agent: * Disallow: /cgi-bin/
Помилка, пов'язана з відсутністю похилої риси, що відкриває, при закритті директорії від індексування.
Неправильно:User-agent: * Disallow: dir
User-agent: * Disallow: page.html
Вірно:User-agent: * Disallow: /dir