Перевірка великої кількості сторінок в індексі Яндекса

Чому ж нам не підходять стандартні способи перевірки сторінок в індексі:
- Яндекс вебмайстер: там показується лише 1000 URL в індексі, скільки б у вас сторінок не було, він покаже лише першу тисячу.
- Скрипт з XML-лімітами Яндекса: чесно кажучи не стикався, але знаю, що цей спосіб, напевно, буде більш витратним, ніж той, який я вам покажу, до того ж, з Гугла ви таким чином не зможете зібрати сторінки з індексу
- Перевірити вручну кожне посилання: думаю, очевидно, чому нам цей метод не підходить =)
Що нам потрібно для перевірки індексації сторінок в індексі Яндекса та Гугла
Для того, щоб ним скористатися нам необхідний KeyCollector, думаю він є практично у кожного СЕО-оптимізатора, а також трохи грошей на антикапчу. Результатом нашої перевірки буде екселевський документ, у якому буде список усіх URL-ів сайту відсортованих за «в індексі/не в індексі» (у випадку із двома пошуковими системами, можна буде зробити і дві колонки — Індекс Яндекса та Індекс Google).
Отже, сам спосіб масової перевірки індексації великої кількості сторінок в Яндексі та Гугле
Нам потрібно добути список усіх URL вашого сайту, як це зробити, я думаю ви і самі знаєте. У більшості випадків у нас є sitemap.xml, в якому присутній необхідний список посилань. Давайте приклад візьмемо сайт мап даного блогу. Показувати я буду на прикладі 50 сторінок, але цього буде достатньо, щоб зрозуміти що до чого =)
1) Заходимо на сайтмап -> права кнопка миші -> зберегти як -> sitemap.xml

2) Далі відкриваємо наш збережений файл за допомогою екселю. Вилітають якісь попередження – тиснемо скрізь «ОК».Бачимо приблизно таке:

Ось у принципі той самий перелік сторінок, які ми і перевірятимемо на індексацію в Яндексі/Гугле
3) Тепер заходимо до КейКоллектора і відразу створимо новий проект і зайдемо в налаштування -> парсинг -> загальні і там, де у нас написано «фільтрація символів», стираємо обидва поля і тиснемо зберегти.

Ми це зробили для наступного нашого кроку

5) Після того, як сторінки були успішно додані — у правому верхньому кутку пишемо URL нашого пацієнта і натискаємо кнопочку «Збір позицій сайту з ПС яндекс» (або гугл відповідно до ваших цілей) і чекаємо поки він закінчить. Для порівняння: операція на перевірок 10 000 сторінок зайняла близько 6 годин, але в цьому випадку це мала жертва, т.к. ваші праце- і тимчасові витрати практично нульові (колектор вам не вантажитиме комп'ютер або ще якимось чином заважатиме, він просто тихо зробить свою роботу).
Залишилося тільки вивантажити наш документ: не забудьте в налаштуваннях -> інтерфейс -> експорт -> поставити галочки на "фраза" і "позиція з ПС яндекс" (ну і гугл, якщо необхідно). Зберігаємо. Давайте нарешті вивантажимо те, що в нас вийшло! (кнопочка excel у верхньому лівому кутку)

І що ми бачимо в результаті: Екселевський файл з урлами сайту і цифру навпаки або «1» або «-1». «1» - сторінка в індексі «-1» - сторінка не в індексі

Що саме ми зробили? По суті, ми змусили КейКоллектор заходити в яндекс/гугл вбивати в пошуковий рядок кожен урл і збирати позицію нашого сайту у видачі. Від туди і цифра, якщо «1» — це перша (і єдина) позиція, а «-1» — це означає, що сторінки у видачі немає. Вам знадобиться антикапча - інакше колектор зупинятиметься кожні 5хвилин. Дякую за увагу.