Помилки, що заважають індексації Яндекс

Неправильно обробляється помилка 404 "Not found"Перевірте, що роблять ваші скрипти у разі помилок. Якщо скрипт повідомляє про помилку і видає код нормального завершення 200, то повідомлення буде проіндексовано. Якщо ваш скрипт поверне HTTP код 404, це повідомлення про помилку проіндексовано не буде. Це стосується й звичайних документів. Деякі сервери налаштовані таким чином, що вони у разі помилки надсилають повідомлення з кодом нормального завершення 200. Це заважає роботі видалити посилання на сторінку бази даних. Будь-який сучасний web-сервер дозволяє змінювати стандартні повідомлення про помилки та надсилати їх із правильним кодом помилки.

Неправильні датиНа Яндексі працює пошук та сортування за датами, але в 20% випадків сервери не видають реальну дату зміни файлів. Налаштуйте свій сервер правильно. Не позбавляйте користувача додаткової інформації та скористайтеся можливістю коректно показати свої сторінки під час пошуку за датами.

Неправильне кодуванняВеб-сервер разом із самим HTML-документом надсилає також додаткову інформацію в так званих "заголовках HTTP". Зокрема, кодування документа вказується в заголовку "Content-Type", параметр charset, наприклад, так:

Content-Type: text/html; charset=windows-1251

Content-Type: text/html; charset=koi8-r

Веб-сервер повинен вказувати кодування всіх документів, написаних не англійською мовою. Якщо кодування не вказано, користувач буде змушений самостійно встановлювати кодування у браузері, що дуже незручно. Змусити сервер надсилати кодування можна, виправивши конфігурацію сервера.

Індексування однакових документів у різних кодуванняхБагато ресурсіввитрачається марно при індексації тих самих документів, що видаються web-серверами в різних кодуваннях. При цьому українські пошукові системи все одно тримають у базах документи в одному із кодувань. Рекомендується забороняти для індексування всі кодування, крім одного. Якщо кодування видаються портами серверам, треба видавати різних портах (серверах) різний robots.txt. Це означає, що у всіх портах/серверах, крім основного, має бути написано

Якщо кодування видаються, наприклад, за директоріями, треба зробити один файл robots.txt, в якому буде написано

user-agent: * disallow: /alt disallow: /mac disallow: /koi

Не варто відкривати для роботів пошукових машин вміст свого сайту під різними іменами чи портами. Це НЕ дасть поліпшення індексації вашого сайту, а, навпаки, призведе до зайвого навантаження на ваш сервер і мережу, а також може викликати різні негативні ефекти.

Перелічені вище проблеми притаманні всім серверам, із встановленим на них веб-сервером "український Apache". "Український Apache" містить механізм видачі одного й того самого документа в різних кодуваннях під різною URL-адресою. В результаті роботи сканують ваш сервер кілька разів, а саме – стільки, скільки встановлено кодувань. При цьому роботи вітчизняних пошукових машин враховують це і використовують алгоритми автоматичного визначення кодувань, щоб злити всі варіанти в один документ. Прийнята в "українському Apache" система попарних таблиць, що редагуються користувачем, призводить до появи нестандартних і некоректних символів у тілі документів. Через це документи за "формального" порівняння відрізняються і, таким чином, залишаються незлитими.