Правильний для virtuemart 2

Файл robots.txt використовується вебмайстрами для заборони індексації всього того, що не має безпосередньо відношення до контенту: файли движка, дублі та інше. Неправильно складений роботс.тхт може серйозно ускладнити життя вашому проекту і за статистикою є однією з найпоширеніших помилок у внутрішній оптимізації сайтів.

Почнемо з того, що за замовчуванням у joomla ми маємо такий robots:

Якщо все залишити як є, всі наші товари просто не проіндексуються пошуковими системами, оскільки стоїть заборона на індексацію каталогу з компонентамиDisallow: /components/, в якому так само знаходиться наш компонент інтернет-магазину.

Тому в першу чергу необхідно прибрати з роботс.тхт цю заборону, але поставити заборони на індексацію решти всіх компонентів, які ми встановили. Також дублюємо дані правила для Яндекса, прописуємо основне дзеркало сайту і вказуємо шлях до картки сайту (прочитати про складання картки сайту для інтернет-магазину на віртуерт). Щоб Ваші картинки так само потрапили в індекс і принесли додатковий трафік з пошуку по картинках директоріюimages також відкриваємо для індексації.

Після всіх цих нескладних маніпуляцій у мене вийшов такий файл:

Якщо ви хочете убезпечити себе від "доброзичливців", то можна переробити файл трохи інакше. Справа в тому, що у представленому вище роботс.тхт перераховуються компоненти, які закриваються для індексації. Уразливості цих компонентів можуть використовувати хакери для злому вашого сайту. Щоб "ускладнити" ним роботу можна використовувати такий robots.txt:

Тут ми заборонили до індексації всі файли, що знаходяться в дерективіcomponents, але відкрили для індексації папку зvirtuemart (Allow: /components/com_virtuemart/ )

Представлений robots.txt для зв'язування joomla та virtuemart 2 не претендує на 100% правильність. Буду радий будь-яким уточненням та доповненням.

Схожі статті :

Не зовсім зрозумів, що ви маєте на увазі 🙂 З приводу зручності дивлячись який магазин ви хочете робити. Можна і на вордпрес робити непогані магазини, але функціонал там значно менший на мій погляд

Останній і передостанній варіант насправді нічим не відрізняються. На своїх сайтах використовую передостанній варіант, зайвого в індексі не помічав:)

Адмін використовував на своєму сайті передостанній варіант і в індексі купа сміття, так що ваш роботс не зовсім котить. )) В індексі купа лівих сторінок з такими закінченнями orderDesc.html?filter_product=, by,product_price.html?filter_product= - що це? Звідки це?

А якщо домен у зоні "рф", то рядок виглядатиме так? Host: xn--80aaakgfnic6afl.xn--p1ai

судячи зі статті, потрібно прописувати так, як ви написали

А навіщо для яндекса окремо правила прописувати? Адже записUser-agent: * означає, що правила застосовуються для ВСІХ пошукових роботів.

для яндекса окремо прописав, щоб вказати host

Дякую за статтю, дуже допомогла!)

А чому Ви для Яндекса вказали шлях до карти сайту, а для всіх інших пошукових систем – ні? Думаю, треба зазначити.

так, і для інших можна продублювати

А нормально що спочатку відкривається підпапка, а потім забороняється вся папка, що містить підпапку? Може поміняти місцями? Або перші записи мають більш високий пріоритет?

Краще спочатку перерахувати allow Процитую 🙂

якщо для цієї сторінки сайту підходить кілька директив, то вибираєтьсяперша у порядку появи у вибраному User-agent блоці.

А Host запис для інших ПС треба дублювати?

Ні, вона використовується тільки для яндексу

На форумі бачив доповнення до карти, щоб сміття не було в пошуковій системі додати:

Disallow: /index.php? Disallow: /index2.php Disallow: /*keyword= #Пошук за ключовим словом на сайті Disallow: /*pop=0 #Косяк sh404 Disallow: /*product-search #Результати пошуку Disallow: /*flypage= #Адреса сторінок карток з результатів пошуку по сайту Disallow: /*cart #Кошик Disallow: /*feed #Також забороняється RSS та atom Disallow: /404 Disallow: /*? #всі посилання які містять цей знак не індексуються! Disallow: /*% #забороняє індексацію кириличних url

Як називається картка товару в VM2 ?

але це застосовно якщо Sh404 стоїть. але за аналогією можна і для звичайного Sef зробити!

Все виправив але товар так само не індексується в веб-майстрі Яндексі Документ є неканонічним. Як виправити

Велике прохання до адміна. Напишіть статтю про склеювання дублів у VM2 і як боротися з дублями.

Цілком з тобою згоден, не вистачає цієї статті.

Звичайно дуже перепрошую. Але ваш Allow як мертвому припарку. Шкода звичайно, що не багато хоча б відвідували професійні курси сео-майстрів. Жоден пошуковик правильно не зможе цю команду зрозуміти, оскільки такої функції просто не передбачено специфікації. Ще хотів уточнити, що сканування товарів йде добре і при закритому components, оскільки сама система гинерит при включеному сеф-е трохи інакше. Тож за це можете не турбуватися. Не перший магазин створений і можу з упевненістю це затвердити (якщо, звичайно, з кривими руками не підходити до проектів).

якщо вірити цьому посиланню "Allow:має дію, зворотне директиві Disallow - дозволяє доступ до певної частини ресурсу. Підтримується всіма основними пошуковими системами."

Невідомо, що Андрій мав на увазі: ". оскільки сама система гинерит при включеному сеф-е трохи інакше."

Я теж читав про те, що "Allow" не працює, тому що файл тільки забороняє Disallow

перевірити чи ні індексуватися сторінка можна тут - http://webmaster.yandex.ru/robots.xml

Підкажіть будь ласка, а ось такі рядки потрібно вписувати в роботу

Чи у цих папках міститься щось потрібне для індексації?

І друге питання щодо посту

по першій частині питання можна додати ці правила

Підкажіть, через який час після налаштування robots.txt сайт буде проіндексований яндексом?

Це залежить від рівня популярності вашого сайту. У мене ефект був помічений приблизно за тиждень

Написав robot.txt за останнім варіантом. Перевіряю на сайті http://tool.motoricerca.info видає таку помилку

Allow: /components/com_virtuemart/ Unknown command. Прийнятні команди є "User-agent" і "Disallow". A robots.txt файл не може думати, які файли/directories ви можете зробити, але якщо ви не можете зробити. Подивіться на Роботи Exclusion Standard page for more informations. Невідома команда. Прийнятні команди "User-Agent" та "Заборонити". Файл robots.txt не каже, що файли/каталоги можна дозволити, але тільки те, що ви можете заборонити. Будь ласка, зверніться до виключення роботів Standard сторінці для отримання додаткової інформації. Як правильно вчинити у цій ситуації. Чи можна довіряти цій перевірці.

Можете перевірити в яндекс.вебмастер і google вебмастер ніяких помилок з Allow немає якщо сумніваєтеся,то, звичайно, краще використовувати 1-й варіант

І друге питання у мене стандартно robots.txt ще має спочатку такий текст

# If the Joomla site is installed within folder such as at # e.g. http://www.example.com/joomla/ the robots.txt file MUST be # moved to the site root at e.g. http://www.example.com/robots.txt # AND joomla folder name мусить бути fixed to disallowed # path, e.g. Досвідчені правила для /administrator/ folder # MUST be changed to read Disallow: /joomla/administrator/ # # Більше інформації про robots.txt standard, viz: # http http://tool.motoricerca.info/robots-checker.phtml http://tool.motoricerca.info/robots-checker.phtml

Я можу видалити цей текст. Як-не-як цей текст чітко пояснює "глядачеві" що сайт зроблений на Joomla

Вітаю! Так, для vm3 підходить. Можна видалити текст.

На цьому сайті, форумі ( http://cmsheaven.org/blogi/131-pravilniie-robots-txt-dlya-joomla-2-5-3-x/) написано що шлях до Sitemap повинен бути в XML форматі. 8>У вас я так розумію прописаний у HTML форматі

Як має бути правильно.

У форматі xml правильно.

Disallow: /xmlrpc/ Що це означає. у мене в корені сайту немає такої папки, значить її не потрібно прописувати.

Я так розумію що всі ці Disallow: це Папки, які знаходяться в корені сайту, ті які у тебе є ті і переписуєшся крім images. З images можна зробити так Allow: /images/

Стаття писалася для vm2 та joomla 2.5. У нових версіях якихось папок може бути. Якщо папки немає, її не потрібно створювати.

Наведений приклад robots.txt у цій статті є актуальним для virtuemart 3 ? Або треба ще щось дописати?

Для virtuemart 3 є актуальним.

yarov > Травень13, 2017 в 23:46

User-agent: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Allow: /components/com_virtuemart/ Disallow: /components/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Host: mysite.ru

Вітаю! Пропишіть шлях до картки в User-agent: *