Генерація та нюанси використання Google Sitemap
Sitemap дозволяє власникам сайтів та веб-майстрам повідомити пошукові системи про структуру сайту та оновлення контенту на його сторінках. Таким чином, при правильному використанні sitemap можна досягти кращого індексування сторінок веб-ресурсу пошуковими системами. Відповідно, при неправильному використанні цієї технології можна нашкодити самому собі (точніше своєму інтернет дітищу).
У цій статті я хочу коротко розповісти вам про Google Sitemap, надати програмний код Java для простої генерації sitemap.xml, ну і відкрити деякі нюанси виявлені моїм другом і мною, і про які, як мені здається, багато хто не знає.
Sitemap складається з набору блоків, кожен з яких описує одну сторінку сайту та надає деяку інформацію про динаміку оновлення. Ось невеликий приклад sitemap.xml, згенерований за допомогою програми на java, яку я надам нижче:
Розповім про кожен елемент, що входить до блоку url:
1. loc – власне URL сторінки
2. changefreq - як часто ця сторінка може змінюватися. Можливі значення - always, hourly, daily, weekly, monthly, yearly, never. Зважаючи на все, цей параметр ще використовується пошуковими системами, для того щоб обчислити приблизну дату наступного заходу на сторінку.
3. priority - пріоритет сторінки, що допомагає пошуковому спайдеру визначити, які зі сторінок більш пріоритетні для краулінгу на вашу думку. Так як зазвичай кількість сторінок, які завантажує краулер обмежено, даний параметр може виявитися дуже корисним для сайтів, де контент змінюється дуже часто. На видачу пошукових систем цей параметр не впливає.
4. Lastmod - час останнього оновлення коннетнта сторінки. Для сайтівзі статичним контентом можна не використовувати останнійmod, changfreq буде більш ніж достатньо.
Не вказано час оновлення сторінки. Google звичайно розуміє різні формати дат, але давайте розглянемо такий випадок:
1. ви оновили сторінку, наприклад, 2009-02-20.
2. crawler заходить на сайт, завантажує сторінку. Швидше за все, він зазначає, що заходив на цю сторінку 2009-02-20.
3. У цей же день ви знаходите страшні недоліки в контенті сторінки і повністю переробляєте її. Після змін дата lastmod все одно залишається 2009-02-20.
4. Наступного разу spider завантажує sitemap.xml і бачить, що та сама сторінка востаннє змінювалася 2009-02-20. Але цього дня гугл уже нібито скчував сторінку. А отже, немає сенсу заново її завантажувати. Таким чином Google ніколи не дізнається про ваші зміни, якщо звичайно ви ще раз не оновите lastmod.
Так що вам рекомендую використовувати формат з датою, часом і time зоною.
Ну а ось і обіцяний програмний код для генерації sitemap:
Якщо ви запитаєте, що таке
Так от це невеликий хак. Справа в тому, що за стандартом w3c в таймзоні має бути двокрапка, а Z для таймзони в SimpleDateFormat двокрапка не ставить.