Дубльований контент
Дубльований контент на сайті може з'явитися навіть без вашого відома. Що потрібно перевірити і як це запобігти?
1 Листопада 2016 4205 0
Напевно, вам не раз доводилося чути словосполучення "дубльований контент" і ви, як досвідчений власник сайту, ніколи не стали б розміщувати один і той же контент двічі, чи не так?
Дубльований контент можна порівняти з банківським овердрафтом. Тільки у цьому випадку ви витрачаєте свій цінний краулінговий бюджет.
Краулінговий бюджет – це кількість сторінок на сайті, яку пошуковий робот може сканувати за певний відрізок часу. Тому так важливо витрачати його на потрібні нам сторінки.
Виявляючи себе в різних формах, дубльований контент може стати однією з найбільш невловимих та невидимих проблем, яка може негативно впливати на ранжування та просування сайту. Його поява часто пов'язана з особливостями архітектури сайту або обмеженнями CMS.
На жаль, немає такого чекера в Google Вебмайстрі, який міг би легко виявити дублі контенту. Навіть найпросунутіші сторонні інструменти не завжди добре справляються з цим завданням, особливо коли джерело проблеми знаходиться всередині. Ручної перевірки не уникнути.
Перед вами - список із 8 потенційними причинами появи дублів сторінок на сайті:
Одна з найшвидших перевірок того, що у вас є дві доступні для індексування версії сайту – це спробувати зайти на нього, використовуючи як HTTP, так і HTTPS-протокол. Якщо обидві версії відкриваються, очевидно, ваш розробник переклав сайт на HTTPS і не налаштував 301 редирект з HTTP-версії.
Таким же чином, потрібно перевірити чи немає сайту двох версій сторінок як з WWW, так і без WWW. Вирішитицю проблему можна налаштувати 301 редирект і вказавши домен (головне дзеркало) в Google Вебмайстрі.

До тих пір, поки не існує законодавства, що дозволяє повернути вам вкрадений контент, є тільки способи, які ви можете використовувати в коді, щоб ускладнити завдання злодіям, які намагаються видати ваш контент за свій власний. Для цього завжди використовуйте на сайті абсолютні посилання замість відносних:
Абсолютні посилання:http://seo.artox-media.ru/wiki/dublirovannyi-kontent.html (починається із зазначення протоколу та містить ім'я сайту).Відносні посилання:/wiki/dublirovannyi-kontent.html (бере початок від кореня сайту або поточного документа).
Якщо розробник не бажає переписувати весь сайт, можна використовувати канонічні теги, що посилаються на себе. Коли ваш контент буде розміщено на іншому сайті, канонічні теги можуть залишитися, допомагаючи Google визначити, що ваш сайт є першоджерелом контенту.
Щоб дізнатися, що ваш контент вкрали, можна використовувати будь-який з безкоштовних сервісів (наприклад, Siteliner, Copyscape. Etxt, AdvegoPlagiatus та ін.)
Припустимо, ви відмовилися від будь-якого піддомена і вирішили використовувати натомість субдиректорію. Або, наприклад, ви створили новий сайт. У будь-якому випадку, ваш старий контент може бути доступним і, більше того, він може погано вплинути на ранжування нових сторінок. Для вирішення проблеми найкраще використовувати 301 редирект із цього субдомену на новий сайт/каталог. Це особливо важливо, якщо ваш старий ресурс має велику масу посилань.
Приховані сторінки у стадії розробки
Вирішили оновити дизайн? Чи готовите ваш сайт до великих змін? Якщо перед цим ви не закрили свої тестовісторінки (а тим більше дев-версії сайту) від індексації, то ви не застраховані від того, що їх робот не виявить.
Існує поширена помилка, що ніхто ніколи не здогадається ввести в браузерний рядок якийсь вигаданий URL на вашому сайті http://razrabotka.sait.ru/, якщо ніде немає посилання на неї в коді, здається, що це просто нереально. Але це не так! Google постійно шукає та індексує нові веб-сторінки, у тому числі й у розробці. Все це може вплинути на результати ранжирування, а також ввести користувачів в оману.
Це не тільки завдає величезної шкоди сайту з точки зору конфіденційності та безпеки, але також може завдати серйозної шкоди краулінговому бюджету. Уникнути цього просто: використовуйте мета-тег robots c noindex на всіх сторінках тестування або заблокуйте їх у файлі robots.txt.
Пам'ятайте, що, переносячи сторінки з дів-режиму на лив, необхідно видалити ці блокуючі директиви з коду.
Динамічно генеровані параметри в URL
Найчастіше динамічні URL генеруються на основі фільтрів, що використовуються на сайті. Як саме виглядають такі URL?
URL 1: www.shop.com/chocolate/cake/vanilla URL 2: www.shop.com/chocolate/cake/vanilla%8in URL 3: www.shop.com/chocolate/cake/vanilla %8in=marble
Таким чином, Google може створювати та індексувати нескінченні комбінації URL, які користувач навіть не просить.
В даному випадку, застосуйте канонічний тег із вказаним URL-адресою і налаштуйте параметри сканування URL у Google Вебмайстрі.

Ваш бізнес працює у кількох регіонах? Деякі компанії вважають за краще створити основну цільову сторінку, яка дозволяє користувачам вибрати найбільш відповідний для них регіон, апотім перенаправляє їх у відповідний підкаталог. Наприклад:

Синдицикация контенту - повторне використання однієї й тієї ж контенту різних ресурсах із метою просування вашого сайту/бренда/контенту і залучення додаткового трафіку.
Синдикація є відмінним способом ознайомити нову аудиторію з вашим сайтом, однак варто визначити правила для тих, хто буде перепублікувати ваш контент.
В ідеалі необхідно попросити видавців використовувати атрибут “rel=canonical” на сторінці матеріалу, щоб вказати пошуковим системам, що ваш веб-сайт є першоджерелом контенту. Крім цього, вони можуть закрити контент від індексації, що дозволить вирішити потенційні проблеми з дублюванням у результатах пошуку.
Зрештою, видавці можуть посилатися на початкову статтю із зазначенням вас як першоджерела.
Такий контент може завдати не менше шкоди, ніж дубльований. У визначенні Google про дубльований текст навіть фігурує фраза «суттєво схожий». І нехай частини матеріалу можуть бути різними за синтаксисом, загальне правило полягає в тому, що якщо ви можете почерпнути з них одну і ту ж інформацію, то немає жодної причини для існування на веб-сайті їх обох. Тут відмінним варіантом вирішення проблеми є використання канонічного тега або розгляд питання про об'єднання цих частин контенту в один.