Універсальний граббер контенту

Я заморочився і написав універсальний граббер контенту. Він працює прямо в браузері і вміє тягнути картинки, посилання та RSS. Докладно про цей інструмент я напишу далі.

Що таке граббер

Граббер це програма, яка вміє збирати дані з якогось зовнішнього ресурсу. Буває, наприклад, граббер екрану. Це коли програма захоплює те, що виводиться на екран (ваш чи чийсь). В інтернеті часто використовуються граббери контенту.

Зазвичай граббери застосовують для невеликих завдань. Наприклад, можна отримати прогноз погоди.

Іноді граббери використовуються для додаткового заповнення веб-сайту. А іноді навіть для основного. Наприклад, цей сайт майже повністю складається із грабберів. Граббери збирають дані з твіттера, LastFM та Fromspring.me, оформляють їх як слід і виводять як частину контенту сайту.

Іноді грабери використовуються для. скажімо, не дуже гарних вчинків. Наприклад, можна написати граббер, який утягне у конкурента (або кількох) дані і дбайливо складе їх у вашу базу даних, звідки їх можна буде вже брати для потреб. Іноді така поведінка негарна, а іноді дуже корисна. Наприклад, Яндекс.маркет побудований саме на основі грабберів. Щоправда, власники магазинів самі підключаються до цієї системи, а чи не навпаки. Але те, що власники все ж таки, підключаються, показує, що сервіс корисний і їм у тому числі.

Як використати цей граббер?

Але убік лірику! Ось є граббер, навіщо він? Що з нею можна робити?

Збір колекції картинок

Більше того, він покаже вам їх та дасть скачати. А якщо ви ледарів, можете просто зберегти сторінку грабера і знайти у доданій папці всі зображення, які були на сторінці в момент збереження.

Більше того, як правило,коли постять великі набори картинок, які ліньки або незручно зберігати руками, вони мають схожі імена. І ви можете скористатися фільтром результату, щоб залишити тільки ті зображення, які вам потрібні.

Збір колекції посилань

Уявіть що ви знайшли галерею зображень де всі малюнки малі. Це лише прев'ю. Потрібно клацнути на кожну, щоб відкрилося повнорозмірне зображення. Такі галереї не рідкість в інтернеті і завантажувати їх цілком незручно.

За допомогою грабера ви можете вдатися до трюка.

  • Знайдіть усі посилання на зображення зі сторінки галереї
  • Відфільтруйте їх так, щоб залишилися лише посилання на повнорозмірні зображення
  • Виберіть режим src
  • Натисніть показати

Тепер грабер візьме посилання з вікна результату і відобразить їх в області перегляду не як посилання, а як зображення! Шукали посилання – відобразили картинки. Зручно!

Граббер RSS

Що таке RSS я вже писав. Якщо ви цього ще не знаєте, цілий пласт інтернету вислизнув від вас. RSS дуже стандартизований формат, тому грабувати і ширяти його дуже легко. Це я й зробив у своєму чудо-грабері.

Я обмежив переключення із формату RSS на формат src. Якщо ви спробуєте вивести посилання як зображення, у вас нічого не вийде все одно. Якщо потрібний RSS містить картинки — спробуйте грабувати сам RSS, але у режимі src. Якщо у стрічці є зображення, ви їх отримаєте.

Tips and tricks

Зараз я розповім як ще можна використати диво-грабер. Одну з хитрощів я вам уже розповів. Ви можете шукати посилання, а відображати картинки. Звичайно, якщо ви дійсно знайшли посилання на зображення, а не на html-файли.

Також, ви можете зібрати посилання на зображення замість зображень. Це тежможе бути корисним, якщо ви не хочете завантажити всі ці зображення зараз.

Деякі погані (чи хороші?) адміни закривають доступ до різних сайтів і ви не можете до них пробитися. Але інколи дуже хочеться. Наприклад, почитати ЖЖ друзів чи почитати башорг.

Як отримати список файлів Javascript, що підключаються?

Якщо вас цікавлять css-файли - проробіть те саме, але для режиму href з фільтром по "css".

У фільтрів мало налаштувань

А ось і ні! Справа в тому, що фільтри підтримують справжнісінькі регулярні висловлювання! Якщо ви знаєте, що це таке — ви вже зрозуміли, що фільтрувати можна дуже потужно. Якщо ні, покажу на прикладах.

(jpe?gpngbmpgif) - прибере або залишить рядки, які містять підрядки "jpeg, jpg, png, bmp, gif". Одну чи кілька одразу.

(jpe?gpngbmpgif)$ - прибере або залишить рядки, які закінчуються на ці ж підрядки

Вже цього досить часто.

Отримати всі зовнішні посилання

У налаштуваннях грабер є чекбокс "тільки для цього домену". А що робити, якщо хочеться отримати посилання тільки не на цей домен?

Потрібно знайти всі посилання, а потім відфільтрувати за назвою домену.

Сподіваюся тепер стало зрозуміліше, як і навіщо можна використовувати диво-грабер. Всі ваші побажання та пропозиції можете надіслати мені. А якщо вам сподобалося, можете замовити у мене щось подібне.