Безкоштовні пошукові системи, Барабін

Родовід, радіоелектроніка, кібернетика, зв'язок

У мережі Інтернет представлені мільярди сторінок та нею користуються сотні мільйонів людей. До появи Інтернету основними джерелами інформації вважалися:

власний досвід; друковані видання – газети, журнали, книги; радіо та телебачення; досвід знайомих.

Для вирішення серйозних питань нерідко доводилося довго шукати людину, чий досвід не викликав сумніви або досить ретельно відбирати потрібну літературу.

пошуку

Короткий екскурс у безкоштовні пошукові системи

На стадії становлення Інтернет число її користувачів було невелике, а обсяг доступної інформації порівняно невеликим. Доступ до Інтернету мали співробітники різних університетів та лабораторій, оскільки мережа використовувалася виключно з науковою метою. У цей час завдання пошуку інформації в мережі було не так актуальною, як нині.

пошуку

В даний час каталоги посилань практично втратили свою популярність, тому що навіть сучасні каталоги, що містять величезну кількість ресурсів, надають інформацію лише про незначну частину мережі Інтернет. Найбільший каталог мережі DMOZ (або Open Directory Project) містить інформацію про 5 мільйонів ресурсів, у той час як база безкоштовної пошукової системи, наприклад Google складається з більш ніж 8 мільярдів документів.

Першою повноцінною пошуковою системою став проект WebCrawler, що з'явився в 1994 році.

У 1995 році з'явилися безкоштовні пошукові системи Lycos та AltaVista. Остання довгі роки була лідером у сфері пошуку інформації в Інтернеті.

Зараз існує 3 основних міжнародних безкоштовних пошукових систем - Google, Yahoo і MSN Search. Вони маютьвласні бази та алгоритми пошуку. Інші пошукові системи, яких безліч, використовують у тому чи іншому вигляді результати вищенаведених трьох безкоштовних пошукових систем.

В Україні основною безкоштовною пошуковою системою є Яндекс, за ним йдуть Rambler, Google.ru, Aport, Mail.ru та KM.ru.

Склад безкоштовних пошукових систем

Чому саме пошукові системи посіли в Інтернеті найважливіше місце? Так, тому що вони впорядковують хаос. Сайти та їх сторінки розкидані в мережі без будь-якого порядку «Читати» Інтернет поспіль – неможливо.

За століття, що минули з часу винаходу книг, людство придумало лише три основні способи пошуку інформації в неосяжній кількості сторінок, а саме: зміст, посилання та предметний покажчик. Для пошуку потрібної сторінки в Інтернеті використовуються ці ж способи, просто вони автоматизовані та виконуються спеціальними програмами.

безкоштовні

Основою будь-якого пошуковика, як і звичайного комп'ютера, є «залізо» та відповідне програмне забезпечення. Будь-яка безкоштовна пошукові системи включають наступні основні компоненти:

Spider (павук) — програма, що «завантажує» веб-сторінки тим самим способом, що й браузер користувача. На відміну від браузера, павук не має жодних візуальних компонентів і працює тільки з html-текстом сторінки.

Indexer (індексатор) - програма, що аналізує веб-сторінки завантажені павуками. Ця програма розбирає сторінку на складові елементи та аналізує їх. Виділяються та аналізуються різні частини сторінки, такі як текст, заголовки, структурні та стильові особливості, спеціальні службові html-теги та ін.

Database (база даних) – сховище скачаних та оброблених сторінок, де зберігаються всі дані,які пошуковик завантажує та аналізує. Інакше базу даних називають індексом безкоштовної пошукової машини.

Search engine results engine (система видачі результатів) – отримує результати пошуку з бази даних та визначає ранжування сторінок. Вона приймає рішення щодо того, які сторінки задовольняють запит користувача, і в якому порядку вони повинні бути відсортовані відповідно до алгоритмів ранжування пошуковика. Звідси очевидно, що ця інформація є найбільш цінною та цікавою. Тому саме з цим компонентом безкоштовної пошукової системи взаємодіє оптимізатор, який намагається поліпшити позиції сайту у видачі.

Web server (веб-сервер) – здійснює взаємодію між користувачем та іншими компонентами безкоштовної пошукової системи. Зокрема, він включає html-сторінку з полем введення, де користувач може задати запит пошуку пошуку інформації. Веб-сервер також відповідає за видачу результатів користувачеві у вигляді html-сторінки.

Як працює безкоштовна пошукова система

Пошуковик складає та зберігає предметний покажчик Інтернету, а також знаходить у ньому задані ключові слова. З цією метою складається так званий індекс.

системи

Для складання з тексту сторінки індексу безкоштовна пошукова система запитує у сайту задану сторінку та завантажує її. Далі вона вибирає всі слова зі скачаних текстів і розташовує їх в алфавітному порядку, разом з номерами сторінок та різною службовою інформацією.

Всі ці кроки непомітні для користувача, оскільки вони виконуються пошуковою системою. А ось сам пошук – це те, що бачить користувач. Якщо користувач вводить у рядок пошуку свій запит, йому видається список посилань на сторінки в Інтернеті.

Учим же сутність цього процесу? Коли користувач вводить будь-яке слово чи словосполучення в рядок запиту, то пошуковик звертається до індексу, знаходить у ньому запис про заданий запит, витягує всі номери сторінок, які стосуються нього, і показує користувачеві результати пошуку, тобто. Список сторінок.

З точки зору безкоштовної пошукової системи найважливіші частини сторінки – це ті, які найпомітніші для відвідувача під час відкриття документа у браузері.

У процесі ранжирування знайдених документів пошуковик віддає перевагу сторінкам, у тексті яких зустрічається точне, буквальне входження слів із запиту. Морфологія української мови підтримується всіма українськомовними безкоштовними пошуковими системами. Тому непрямі граматичні форми ключових слів також будуть враховані під час ранжирування, але точне входження завжди має пріоритет.

Якщо запит пошуку інформації складається з кількох слів, то важливішим буде вважатися той документ, в якому слова розташовані в тому самому порядку, який поставив користувач, або де відстань між словами запиту буде найменшою.

Більш детальну інформацію про порядок роботи пошукових систем доступною для розуміння мовою кожен може знайти в книзі «Оптимізація та просування сайтів у пошукових системах» (І.Ашманова та А.Іванова).

Основні особливості безкоштовних пошукових систем

Пошуковики відрізняються один від одного набором своїх функцій, можливостями, зручністю. Більшість із них вже не є простими комплексами та наближаються до порталу. Вони зайнялися створенням великої кількості різноманітних сервісів, покликаних задовольнити потреби будь-якого вибагливого користувача та утримати його на порталі.

Зараз майже всі пошукові системи, крім пошуку інформації за запитом,показують каталог сайтів, погоду, курси валют, карти, ТВ-програми і т.д. У цьому сенсі порівнювати безкоштовні пошукові системи між собою не є сенсом, тому що кожен користувач вибирає найбільш зручний набір сервісів.

Наприклад, глобальні безкоштовні пошукові системи шукають по всій «світовій павутині», а вітчизняні в основному тільки по Рунету. У той же час вітчизняні пошукові системи знаходять більше документів українською мовою, оскільки вони краще знають структуру Рунету і правильніше справляються з українською мовою.

Між безкоштовними пошуковими системами та спеціалістами з оптимізації спостерігається історія безперервних змагань. Ця боротьба між ними спирається на те, що алгоритми визначення релевантності документів ніколи не будуть загальним надбанням, оскільки це миттєво спричинить лавину спекуляцій з боку оптимізаторів. У той же час, оптимізаторські хитрощі впливають позитивно на прогрес розвитку пошукових систем, оскільки змушують їх розробників постійно вдосконалювати алгоритм і запобігати можливим спекулятивним діям зі штучного завищення рангу сторінки. Ця боротьба схожа на боротьбу між військовою авіацією та засобами ППО.

системи

Однак, незважаючи на це, всі безкоштовні пошукові системи в тій чи іншій мірі підпорядковуються загальним правилам і грамотна робота над ресурсом (без урахування якихось особливостей) призводить до добрих показників практично у більшості пошукових систем. У той же час, кожна пошукова система має «свою родзинку». У цьому нижче акцентується увагу до деяких особливостях основних систем.

Google на сьогоднішній день отримала світове визнання. PageRank, використовуваний нею, переважно заснований на link popularity, тобто. при обчисленні релевантностісторінки найбільший внесок має число та якість посилань на сторінки з інших сторінок. Зараз link popularity тією чи іншою мірою використовується у всіх основних світових безкоштовних пошукових системах, а база Google використовується дуже великою кількістю інших пошукових систем та порталів.

MSN, ніж інші пошукові системи, робить більший акцент на інформаційний вміст ресурсу. Перевіряється обсяг тексту, унікальність та смислова зв'язність (!). Отже, ті, хто публікує пости методом копі-паст або застосовує генератор випадкових фраз (синонімейзер) можуть на MSN навіть не розраховувати. Проте з українським текстом ця машина має деякі проблеми.

Після 4-24 годин реєстрована сторінка з'являється у результатах пошуку. Однак це означає лише те, що сторінку поставлено в чергу на повну індексацію. Тому положення сторінки потрібно відстежувати протягом кількох днів, доки не пройде повна індексація. Для індексації решти (крім головної) сторінок сайту потрібно приблизно 2-3 тижні. Якщо сайт українською мовою, а домен не в зоні .ru, Yandex все одно проіндексує.

У періоди оновлення бази, які тривають кілька днів, видача Yandex постійно змінюється. У такі періоди слід відмовитися від будь-яких робіт на сайті і дочекатися стабільних результатів роботи даної машини.

Ще одна особливість Yandex полягає в тому, що є різні результати пошуку в залежності від регістру ключових слів (тобто "Слово" та "слово" дають різні результати пошуку).

Rambler - найбільш загадкова безкоштовна пошукова система. Займає друге (за іншими даними третє після Google) місце за популярністю серед українських користувачів. За наявними спостереженнями, знижує в рейтингу сайти, що активно займаються розкручуванням (швидкезбільшення числа зовнішніх посилань). Цінує наявність термінів пошуку в простому тексті сторінки (без виділення різними стилістичними тегами).

Таким чином, безкоштовні пошукові системи відіграють головну роль у популярності та просуванні проектів у мережі Інтернет. Незважаючи на те, що мережеві ресурси створюються в першу чергу для людей, проте, цю обставину слід враховувати під час створення свого сайту чи блогу. Крім того, пошуковими системами проект, який не має свого домену, сприймається як сайт-одноденка, тому є сенс все-таки придбати власний домен, який надає свободу у виборі хостингу.