Invisible web, deep web, Невидимий інтернет, Глибокий веб Андрій Масалович, hrazvedka

Про «Невидимий інтернет» та швидкоплинний час

Буквально минулого тижня Віце-Президент IBM з інтелектуального аналізу даних повідомив, що за останні 6 років обсяг документів в інтернеті збільшився вдесятеро. На наступне десятиліття він прогнозує збільшення близько 25 разів. Під документом розуміються текстові та статистичні файли обмеженого обсягу. (Тобто велика книга, або досьє є поруч взаємопов'язаних документів). На його думку, переважна частина цих документів, особливо, в частині комерційної, наукової, патентної інформації ставитиметься до «Невидимого Інтернету». Докладніше цю тему розглянемо у серії постів, присвячених проекту Watson та напрямах його застосування у різних сферах діяльності.

У зв'язку з цим, можна говорити про те, що в сучасних умовах взагалі стає не дуже коректно порівнювати обсяги інформації, що знаходиться в так званому «Відкритому Інтернеті» та в «Невидимому Інтернеті». По суті, на наших очах відбувається процес розшарування інтернету на кілька малопов'язаних сегментів, або навіть точніше, шарів.

Доступний шар, де переважають комерція, розваги та довідкова інформація. У нього дедалі більше вироджується традиційний Інтернет 1.

І, нарешті, активно формується, що бурхливо розвивається, знаходить свої інструменти роботи «Невидимий інтернет», пов'язаний зі знаннями. Як я вже неодноразово писала, знання докорінно відрізняються від відомостей тим, що являють собою інформацію, призначену для конкретного використання та передбачає, як умову цього використання, професійний та кваліфікаційний рівень.

Топологія «Невидимого інтернету»

Традиційну топологію «Невидимого інтернету», що йде від К.Шермана таГ.Прайса, можна у стислій формі побачити тут.

Запропонована нижче топологія є деяким розвитком ідей, вперше викладених Дмитром Шестаковим у його дисертаційній роботі.

"Невидимий інтернет" грубо можна поділити на "персоніфікований інтернет", "неіндексований інтернет" та "deep web".

«Неіндексований інтернет ». Раніше, за часів Шермана-Прайса, значну частину неіндексованого інтернету становили сторінки не html формату, тобто. файли pdf, djva, exe тощо. Наразі пошукові системи навчилися індексувати зазначені файли і ця проблема відпала.

До неіндексованої частини «Невидимого інтернету» сьогодні потрапляють такі інтернет-сторінки та сайти:

Сторінки, при створенні яких в URL вставлені robots.txt, або прописаний метатег, або NOINDEX.

Сторінки, що використовують останнім часом популярні серед інтернет дизайнерів, елементи флеш анімації;

Деяка частина динамічних сайтів, виконаних з певними неточностями на двигунах типу Joomla;

Сторінки сайту, на які через ті чи інші причини не ведуть гіперпосилання з інших сторінок сайту. При цьому ці сторінки, як правило, не мають обмежувальних метатегів та записів в URL. У багатьох випадках такі сторінки є на великих порталах і сайтах і використовуються або для потреб адміністраторів, або для зберігання різноманітних архівної та іншої інформації;

Дозволю собі запропонувати поняття напівіндексованого сайту. Це сайт, який зареєстрований у каталогах пошукових систем і відповідно при введенні в пошуковий рядок запиту на тему сайту, він відкривається. Проте, через обговорені вище особливості пошукових систем, сайти не потрапляють не те що в перші десять, а найчастіше, і в перші п'ятдесят сторіноквидачі, хоча містять потрібну та корисну інформацію.

Причини такої напівіндексації лежать як у надзвичайно швидкому зростанні кількості сайтів, певній недосконалості пошукових алгоритмів, так і в деяких комерційних моментах роботи найпопулярніших пошукових систем. Пошуковики обслуговують аудиторію, а правда життя така, що особливо в останнє п'ятиріччя не лише в Україні, а й у багатьох інших країнах світу в інтернет прийшла аудиторія, яка шукає не інформацію про порівняльні переваги технології, а розклад електричок. І пошуком займається не людина, яка має знання та достатній рівень освіти, а люди, які мають мінімальний рівень підготовки.

Значною та дуже цікавою з точки зору конкурентної розвідки частиною «Невидимого інтернету» є «Глибокий веб» або як прийнято називати його «Deep web ». До нього, слідом за Дмитром Шестаковим, я відношу сайти з динамічними сторінками, що вимагають заповнення різноманітних веб форм, а також у ряді випадків, спеціальних паролів, логінів і т.п.

Сама по собі динамічна сторінка присутня лише на сервері та генерується відповідно до запиту користувача та відображається як звичайна веб-сторінка. Сайти, де для такої генерації веб-сторінки не передбачено спеціальних форм, як правило, нормально індексуються пошуковими системами. У разі наявності веб форми, генерація відбувається тільки після її заповнення. Відповідно, значна частина цих сторінок не індексується. Не індексуються сторінки, що містять у повному обсязі бази даних, що належать до платних сайтів. Найбільш наочно це можна продемонструвати на прикладі добре всім відомого сайту HeadHunter. Індексуються інтерфейс сайту, потім при заповненні вручну певних веб форм, ви можетеотримати частину інформації безкоштовно, і, нарешті, при введенні логіну та паролю, що ідентифікує користувачів, що оплатили послугу, ви отримуєте бази в повному обсязі. Інші бази, такі, як, наприклад, Інтегрум, побудовані більш жорсткому режимі.

Іншими словами, "deep web" це Веб баз даних, що відображаються динамічними сторінками, що вимагають для своєї генерації заповнення так званих Search form та додаткових форм, що підтверджують ідентифікацію або оплату. Спільно ці форми називаються веб-формами.

Інструменти та технології роботи в «Невидимому інтернеті»

Очевидно, що оскільки «Невидимий інтернет» є не тільки для конкурентної розвідки, а й для переважної більшості маркетологів, хедхантерів, величезного загону дослідників та вчених найцікавішою частиною інтернету, то мали з'явитися інструменти та технології, які дозволяють працювати в цій частині Інтернету. .

Як сказав з іншого приводу відомий Пол Бернанке, Сполучені Штати мають технологію для вирішення своїх проблем – це друкарський верстат. Тому слідуючи «мудрій» раді пана Бернанке, навіть за відсутності друкарського верстата для роботи в багатьох сегментах «Невидимого інтернету» єдиний спосіб – це просто заплатити гроші та отримати доступ до відповідних баз. Єдине, треба знати, хто дасть першокласну інформацію, а перед тим ще й знайти місця, де цю інформацію надають. Сподіваюся, що хоча б при вирішенні деяких практичних завдань Розвідне надає певну допомогу.

Для роботи з неіндексованим інтернетом існує низка програмних продуктів. Як приклад можна навести http://www.kbcrawl.co.uk/. Але найкращою у світі програмою для роботи з неіндексованою частиною «Невидимого інтернету» є програма ОлексіяМильникова SiteSputnik + Invisible, що повністю дозволяє зробити видимим неіндексований інтернет. Більше того, експерименти показують, що подальший розвиток програми зможе вирішувати питання надання видимості та безкоштовної частини «deep web». Такий пошук можуть здійснювати і спеціальні версії програми сімейства Avalanche Андрія Масаловича.

У 2006 році Google отримав патент на пошук баз даних через форми-інтерфейси. Однак, як показали дослідження Дмитра Шестакова, стосовно сайтів Amazon.com і т.п. Google індексує за допомогою цього алгоритму не більше 10% об'єктів, що містяться в базі. Повторене нещодавно моїми фахівцями тестування показало лише незначне збільшення трохи більше 15-17% цього показника.

У умовах деякі компанії, наприклад, Brightplanet реалізують пошук у «deep web» як сервіс.

Одночасно, розвивається ціла низка пошукових систем, в основному пов'язаних з текстовими публікаціями по різних галузях бізнесу, науки і техніки, які я привела в розділі DEEP WEB в меню Розвести. Фактично, це пошукові системи, які відразу виходять на конкретні бази даних і ведуть пошук відповідно до заповненої веб-форми.

Чи не найперспективнішим напрямом пошуку в deep web, є технології федеративного пошуку, розроблені компанією Deep Web Technologies (DWT), про які детально розповідається в публікаціях у розділі ПРОГРАМИ І СЕРВІСИ.

Загалом сьогодні є необхідний набір програм і технологій, який за наявності точно поставленого завдання може допомогти конкурентному розвіднику, фахівцю в тій чи іншій сфері бізнесу, що використовує методи конкурентної розвідки, а також вченим, конструкторам, розробникам знайти практично необхідну інформацію в"Невидимому інтернеті".