Заборона на індексацію окремих частин контенту – маніпуляції з пошуковим роботом

Кожен веб-майстр і сеошник рано чи пізно стикається з зазначеною проблемою. У цьому питанні знайти оптимальне рішення не просто, перш за все, через різниці алгоритмів пошукових систем. Тим не менш, кожен хоче досягти успіху в управлінні індексацією і догодити відразу всім ПС.

Що роблять новачки? Знайомляться з файлом robots.txt, з одного боку, це правильно. Це старий добрий спосіб управління індексацією, причому досить простий.

Що насправді дає файл robots.txt?

Детально про роботу з robots.txt, можна дізнатися на однойменному сайті robotstxt.org.ru, синтаксис досить простий, розбереться кожен веб-майстер-початківець. Ми ж говоритимемо про те, як використовувати його найефективніше, і що насправді бачать пошукові роботи в його директивах.

Якщо пошукати інформацію про robots.txt більш прискіпливо, можна натрапити на думки про те, що інструкцій у цьому файлі має бути мінімум. З цим важко не погодитися, пам'ятаючи про сутність файлу – вказувати пошуковим системам, які саме сторінки їм потрібно індексувати. Якщо заборон для ПС досить багато і файл robots.txt роздутий, значить нам є що приховувати, і наш сайт не зовсім якісний. І навпаки, якщо інструкцій у robots.txt мінімальна кількість, значить особливо закривати нам нічого, і контент на сайті якісний.

Сподіваємося, схема зрозуміла: ми визнаємо, що сайт у нас так собі, закриваючи від індексації більшу частину його сторінок. Тому будемо обережними, нехай контент буде якісним, а за ним якісним буде і весь сайт.

Тепер найцікавіше! Насправді директива Disallow, за допомогою якої накладається заборона на індексацію, насправді вміст сторінок від Яндекса та Google не закриває! Тут,зосередимося. Пошуковиком Яндекс скануються всі сторінки, а закриті Disallow розміщуються у спеціальний розділ «Виключені сторінки», їх можна переглянути в Яндекс.Вебмайстрі.

Якщо говорити про пошуковий робот Google, то індекс у нього основний та додатковий (соплі). Ось в останній і розміщуються закриті нами сторінки, поряд з іншими неякісними сторінками. Так працює Google, кидаючи все непотрібне у вторинний індекс. Так ось, цей вторинний індекс і псує якість нашого сайту.

Висновок напрошується сам собою: навіщо тоді файл robots.txt, якщо закриті нами сторінки говорять про неякісний сайт? Не поспішатимемо і відмовлятимемося від нього зовсім. Тут є і директиви Host (дзеркала сайту) та Sitemap (шляхи до карт сайту), які варто використовувати, навіть якщо ви вирішили нічого не ховати від індексації.

У будь-якому випадку, сьогодні метод керування індексацією через файл robots.txt є неефективним, і може зіграти з вами злий жарт. Тому знайдемо гідну заміну даним способом.

Мета тег robots замість robots.txt

Це ефективніший метод маніпулювання індексацією, з його допомогою можна виключити з існуючого індексу сторінки, і заборонити попадання до нього нових. Для цього слід розмістити в шапці сторінки такий мета тег:

Подробиці можемо знайти у довідковій інформації від Google. Тут сказано, що використання мета тегу "noindex" допоможе повністю виключити появу сторінок в індексі ПС. Робот даного пошуковика просто не буде відображати сторінку з noindex в індексі, правда для цього він все одно повинен її просканувати, побачити цей мета тег, прореагувати на нього правильно. Ось ми йому і допомагаємо за допомогою мета тега robots.

Ми розшифрували деякі значенняпараметра content мета тега robots, але навіть з них ясно, який ефективний інструмент управління індексацією у нас в руках. Є істотне доповнення до всього сказаного вище, закривати за допомогою мета тега robots можна тільки документи html, це випливає з того, що robots призначений для розміщення в шапці документа. Щоб приховати від індексації документи іншого типу, наприклад, pdf, txt і т.д, необхідно використовувати заголовок сервера: HTTP заголовок X-Robots-Tag. Щоправда, це вже тема іншої посади.