Опис програм для парсингу у роботі SEO-фахівця

Багато задач пошукової оптимізації сайту можна і потрібно автоматизувати. Наприклад, збирання інформації, складання списку товарів, аналіз цін конкурентів, швидкість впровадження рекомендацій. Автоматизувати ці процеси дозволяє парсер сайтів.

Парсинг сайтів (або скрапінг) — процес автоматичного збирання та отримання інформації з онлайн-ресурсів.

Повинен попередити: навчання та грамотне настроювання інструментів для парсингу займуть багато часу — довше, ніж якби ви все робили вручну. Втім, так справи з усіма інструментами, з якими працюєш вперше. Головне почати.

За два роки в агентстві Netpeak я познайомився з багатьма методами парсингу даних. Розповім, які парсери і для яких цілей я використовую під час оптимізації сайту. Ітиму від простих рішень до складних.

1. Google Spreadsheet

За допомогою таблиць Google можна витягти із сайту прості елементи для порівняння та компонування малих обсягів. Це title, description, h1, keywords, заголовки, артикули, ціни, тексти, таблиці даних. Цей безкоштовний інструмент підходить для точкових, малооб'ємних завдань. Наприклад, створити файл із відстеженням тексту та заголовків сторінки.

Існують дві прості функції:

1. =importhtml - для імпорту даних із таблиць або списків. 2. =importxml — для імпорту даних із документів у форматах XML, HTML, CSV, TSV, RSS, ATOM XML.

Для роботи з функцією =importxml знадобиться знання XPath. Але якщо ви не хочете витрачати час на вивчення документації, використовуйте налагоджувач браузера.

Щоб запустити наладчик, клацніть правою кнопкою мишки на потрібному елементі сторінки і виберіть «Подивитися код», або натисніть F12.

У відладчику пройдіть шляхом: CopyCopy XPath. Скопійований XPath вставляйте у функцію =importxml.

роботі

З кожним місяцем все гірше та гірше обробляється функція =importxml. Раніше можна було без проблем парсити дані відразу ж для

  • автоматичне оновлення на вході;
  • можна налаштувати автоматичне оновлення за часом (хвилина, година, день);
  • при парсингу даних прямо в таблицю можна здійснювати перетворення даних і відразу робити готові звіти, приклади, візуалізації.

Які завдання вирішує?

У колонці A - осередки з посиланням на сторінку. Тег title для клітинки A2 підтягується за допомогою запиту =IMPORTXML(A2;"//title").

Метатег description: =IMPORTXML(A2;"//meta[@name='description']/attribute::content").

Тег H1 – за допомогою запиту: =IMPORTXML(A2;"//h1").

Автор посту: =IMPORTXML(A2;"//a[@class='author-name']").

За допомогою функції =importhtml також можна підтягнути багато цікавих даних, наприклад, основну інформацію з Вікіпедії про об'єкти, що цікавлять.

2. Netpeak Spider

Десктопна програма для сканування сайту, спрямована на пошук SEO-помилок, і включає можливості парсингу даних з HTML-сторінок.

парсингу

SEO-фахівцеві при звичайному скануванні сайту іноді не вистачає даних для аналізу. За допомогою Netpeak Spider можна, наприклад, знайти на сайті сторінки з 404 помилкою, сторінки без тега Title та додатково спарсити ціни на сторінках товарів.

Таким чином, можна виявити товари без ціни і далі вже прийняти адекватне рішення — залишити, прибрати, закрити їх для сканування/індексації.

Також можна витягнути всі тексти, які розміщені на сторінках, задавши певний CSS-селектор або клас, в рамках якого вони розміщуються.

Вартість програми- $14 на місяць або $117 на рік (зі знижкою 30%).

  • немає прив'язки API;
  • немає можливості оновлювати дані за сценарієм.
  • існує можливість додати готовий список URL для парсингу даних, так і зручно просканувати весь сайт;
  • одночасно можна запускати до 15 парсерів із унікальними налаштуваннями;
  • можна відфільтрувати сторінки, на яких не знайшли пошукові дані;
  • показуються всі унікальні входження, їх кількість та довжина;
  • окрім парсера даних, отримуємо також інструмент для комплексного SEO-аналізу сайту.

Які завдання вирішує?

Парсинг цін

Завдання: необхідно дізнатися вартість ноутбуків.

Рішення.Для початку необхідно визначити, який елемент потрібно витягнути — в даному випадку витягуватимемо метатег «itemprop» зі значенням «price»:

парсингу

Далі переходимо в налаштування сканування Netpeak Spider на вкладку «Пошук» і включаємо галочку «Використовувати пошук користувача»:

парсингу

Тепер необхідно задати налаштування пошуку - як приклад використовуватимемо XPath://meta[@itemprop="price"]

А у додаткових налаштуваннях пошуку виберемо «Вилучення даних» — «Значення атрибута» — «content»:

роботі

Що в результаті?

програм

1. На чотирьох сторінках Spider знайшов ціни - звіт відкривається при виборі потрібного пошуку та натисканні на кнопку "Результати вилучення":

опис

2. На одній сторінці не було знайдено ціни - на цій сторінці (http://rozetka.com.ua/asus_e502sa_xo001d/p10677881/) ми бачимо повідомлення, що товар знятий з виробництва:

роботі

Перевірка впровадження GTM

Завдання: перевірити інтеграцію коду GTM на сторінках та відповістина два питання.

  1. Чи встановлено код у принципі?
  2. Чи встановлено код з правильним ідентифікатором?

Рішення.Аналогічно, спочатку потрібно визначити, який елемент відповідає за код GTM, - в даному випадку будемо витягувати GTM ID за допомогою регулярного виразу.

У Netpeak Spider переходимо в «Аналогічні налаштування сканування» і задаємо пошук за регулярним виразом:['"](GTM-w+)['"]

опис

Що в результаті?

опис

Бачимо, що код встановлений та ідентифікатор правильний.

3. Web Scraper

Web Scraper – безкоштовне браузерне розширення для Chrome. Ви можете налаштувати план обходу сайтів, тобто встановити логіку для переміщення краулера і вказати дані, які будуть вилучені. Web Scraper буде проходити через сайт відповідно до налаштування та витягувати відповідні дані. Це дозволяє експортувати отримані дані до CSV.

  • немає можливості інтеграції API, тобто для оновлення даних Web Scraper потрібно запускати самостійно і чекати, поки завершиться сканування. Добре, що проекти зберігаються в браузері, існує можливість зберегти проект у форматі Json.
  • також є обмеження одного потоку. 2 000 сторінок ширяться більше години.
  • працює тільки у Chrome.
  • зручний, простий та інтуїтивно зрозумілий інструмент.
  • може вилучати дані з динамічних сторінок, які використовують Javascript та Ajax.

Які завдання вирішує?

Спарсувати інформацію про картку товару

План обходу сайту показує логіку парсингу:

парсингу

Елементи для парсингу:

парсингу

Після завершення парсингу інформація буде відображена у такому вигляді:

4. Google Spreadsheet + Google Apps Script

Витративши певний час на налаштування звітів можна оперативно реагувати на зміни даних.

Які завдання вирішує?

За допомогою зв'язки Google Spreadsheet та Google Apps Script можна отримувати та оновлювати дані в режимі реального часу, а це корисно, щоб стежити за конкурентами та налаштовувати оповіщення при змінах, наприклад, тегів title. Також можна налаштувати моніторинг цін та отримувати сповіщення при зміні показників.

Приклад скрипту відстеження цін.

Багато питань, пов'язані з автоматизацією, раніше вирішував Kimono, але з моменту закриття хмарного сервісу він перестав бути таким привабливим для SEO-фахівця.

Виявили помилку? Виділіть її та натисніть Ctrl+Enter.

Почав свою кар'єру в Netpeak в 2014 році, з 2016 - Middle SEO Specialist.

Сертифікований спеціаліст Google Analytics, Google AdWords, Bing.

У портфоліо більш ніж 30 проектів широкого спектру тематик, серед яких є великі регіональні та міжнародні проекти.