Принцип роботи пошукових машин

Пошукова система - це програма з веб-інтерфейсом, що надає можливість користувачам зручно відшукувати інформацію, розміщену в Інтернеті. Опишемо принцип роботи. Не розглядатимемо детально, дамо спрощену відповідь, щоб розуміти етапи дії (без згадування технічних параметрів, непотрібних звичайному користувачеві).

Індексація

Що надавати відвідувачу Мережі відповіді на запити у вигляді посилань, що містять необхідне, пошукові системи повинні мати інформацію про контент сторінок. Щоб отримати такі дані, необхідно відвідати всі розділи будь-якого сайту та зберегти інформацію. Як це зробити?

Після складання списку сторінок пошукова система проводить роботу над завантаженням даних та інформації з цих ресурсів. Цей процес отримав назву індексація. Спеціально розроблені програми отримують нову інформацію або перезаписують старі, замінюючи новими даними, прибирають сміття і переносять інформацію до бази даних. Перевірка павутини не зупиняється ні на хвилину.

Програми, що безперервно проводять дію сканування сайтів, збирають нові показники до тимчасового сховища; коли таких даних накопичується необхідна кількість, відбувається процес апдейт. За своїм принципом це оновлення інформації з основної бази, де відбувається зберігання всіх результатів пошукової системи. Таким чином, вона видозмінюється завдяки даним, зібраним сканерами.

Результатом вибірки програми стає великий список сторінок, які можуть задовольнити запити користувача. Початкове запитання: які сторінки відобразити першими, які другими? Сторінки сортуються ранжируванням, що розподіляє їх по повноті інформації, що надається, на дані запити. Чим більш підходящийконтент, тим сайти будуть мати вище становище у місцях пошуку.

Уявимо, що є необхідність навчити робота виконувати визначення стиглих та поганих яблук. Роботу властиво визначати за декількома параметрами якості фрукта.

пошукових

Роботу надається для проведення аналізу два фрукти (яблука): нормальне та погане. Він проводить порівняння. Далі проводимо навчання машини: пояснюючи, що ставитись до позитивних характеристик, яким має бути фрукт, потрібні параметри. Даємо опис поганого продукту, показуємо його характеристики.

Ми отримуємо алгоритм, на основі якого проводитимуться аналіз яблука, робот з великою ймовірністю правильно розсортує їх. Тепер можна дати багато цих фруктів, робот автоматично ділитиме на два види – нормальні та погані.

Такий механізм роботи закладено у пошукових системах. Створено відділ спеціально навчених співробітників, які займаються навчанням алгоритму сортування. У ручному режимі вони переглядають сторінки сайтів за запитами, сортують їх на добрі та погані – релевантні та нерелевантні. За такою розміткою та аналізом понад 800 характеристик виконується навчання механізму пошуку. Робот проходить стадію навчання, де він вчиться відрізняти релевантні сайти протилежних. Далі він самостійно визначає рівень релевантності всіх сторінок Інтернету за запитами користувачів.

Цифра, що визначає релевантність, - дрібне число. Відібраним на запит сторінкам до списку надається цифра релевантності. Потім проводитиметься сортування списку за значимістю релевантності – і так виходить перелік сторінок, де на перших місцях більш релевантні сайти.

10 років працюємо з лідерами ринків та молодими амбітними компаніями

- Реалізуємо будь-який сервіс з нетиповим функціоналом;