Палех» - алгоритм пошуку Яндекса за змістом

Традиційно ближче до Нового року Яндекс порадував вебмайстрів новим алгоритмом. І назва у нового алгоритму гарна - «Палех», і штука сама по собі корисна!

Основна функція «Палеха» – допомагати Яндексу знаходити сторінки не лише за ключовими словами із запиту, а й просто за змістом. Виходить розумний пошук. Що це означає? Давайте розумітися.

Казка про жар-птаху

Ви вже знаєте, що всі пошукові запити можна поділити на три групи в залежності від частоти використання в пошуку: високо-, середньо-і низькочастотні.

Щодня, як каже сам Яндекс, опрацьовується близько 280 тис. пошукових запитів користувачів. Приблизно 40% з яких низькочастотні.

До чого тут жар-птиця? Зараз все буде. Дивіться, Яндекс застосовує єдину систему пошуку відповіді на запити користувача, не важливо при цьому, який частотний запит. Але відповіді на запити виходять не завжди однаково добрими. Чому так відбувається?

На підставі статистики Яндекс дійшов висновку, що всі запити, що вводяться в рядку пошуку, можна подати у вигляді жар-птиці, у якої:

клюв - це запити, які часто вводять, але самі запити короткі і становлять невелику частку в загальній масі (наші звичні ВЧ);
туловище — запити, які вводять рідше, ніж запити з «дзьоба», вони з уточнювальними словами та за загальним обсягом їх більше (наші звичні СЧ);
хвіст - рідкісні, витіюваті запити. Їх можуть взагалі задавати у пошуку всього кілька разів, але в загальній сумі виходить багато таких словосполучень – понад 40% (наші улюблені НЧ).

Ось по цих «хвостах» найчастіше в Яндексі і бувають низько релевантні відповіді.

Оскільки низькочастотнихзапитів виявляється досить багато в загальній масі, близько 100 тис. на день, проблема отримання максимально релевантної відповіді, як кажуть, стала руба і зажадала невідкладного рішення. Найлогічне, що можна було переробити у разі – алгоритм відповіді.

Так і виник Палех. До речі, він прийшов на зміну, чи правильніше сказати на допомогу, машинному навчанню «Матрікснет».

Як і інші алгоритми, Палех працює для всіх типів запитів. Але найкраще його роботу можна відстежити на рідкісних низькочастотних запитах.

Навіщо потрібен «Палех» чи чому «Матрікснет» без нього не справляється?

Раніше, коли людина вводила запит, пошукова видача формувалася з урахуванням ключових слів, у тому числі складалася фраза. Якщо запит був високочастотним, користувач найчастіше знаходив потрібну інформацію легко і швидко. Ну а якщо запит був із «довгим хвостом», то знайти корисну інформацію не завжди вдавалося з першого разу.

Виникає резонне запитання: чому?

Щоб зрозуміти, чи отримав користувач релевантну відповідь, Матрікснет використовує «мудрість натовпу» і на її основі будує формулу ранжирування. Якщо більшості відповідь подобається – значить, вона релевантна.

Фішка в тому, що за ВЧ запитів даних про поведінку користувачів набагато більше, ніж за НЧ, і машина, зіставляючи їх, просто знаходить релевантну відповідь. Система «розмірковує» приблизно так: «Люди, які шукали цей запит, переходили із пошуку на цей сайт. У пошуки більше не поверталися. На сайті були довго. Отже, вони знаходили на сайті те, що шукали. Отже, решті правильно буде показати цей же сайт у результатах видачі за цим запитом».

Що стосується НЧ таких даних мало (ну яка статистика, якщо запит лише один раз вжиття вводили в рядку пошуку), тому і витрачалося багато часу і у Яндекса, щоб визначити релевантність відповіді запиту, і у людини на пошук потрібної відповіді.

Якщо допомоги від даних за поведінковими факторами чекати не доводиться, а розуміти, яка сторінка релевантна запиту, треба, Яндекс для вирішення цієї проблеми звернувся за допомогою до технології нейронних мереж. В результаті світ побачив новий алгоритм "Палех".

Як працює «Палех»?

Якщо раніше пошук проводився переважно за ключами (у запиті є слово «помідори» і на сайті є слово «помідори», то це воно), то в «Палесі» не всі вирішують однакові слова.

Перед пошуком стоїть завдання не знайти схожі висловлювання, а зрозуміти зміст запиту та відповісти саме на нього. При цьому слова можуть бути різні у запиті та відповіді. Докопатися до справжнього сенсу Яші допомагають нейронні мережі.

Штучні нейронні мережі – один із найпопулярніших методів машинного навчання на сьогоднішній день. Технологія вже використовується у розпізнаванні багатьох видів інформації. Скажімо, картинок чи музики. У нашому випадку йдеться про розпізнавання тексту.

Суть у тому, що навчена на позитивних та негативних прикладах система зіставляє запити користувачів та заголовки сторінок та знаходить максимально релевантну відповідь.

Що означає навчена на прикладах система? У нашому випадку приклад – це пара «заголовок та запит». Вони вибираються із накопиченої пошуковою системою інформації. Люди ж щодня запроваджують запити. Нейронна система аналізує ці приклади та навчається на поведінці користувачів розуміти, як відповідають один одному запити та заголовки знайдених відповідей за змістом, а не за однаковими словами.

Щоб система могла зіставляти запити із заголовками, вони перекладаються вспеціальний трисотмірний простір, де кожному запиту та заголовку відповідає група із трьохсот чисел. Все, що ми дуже спрощено і на пальцях зараз розповіли, називається «семантичним вектором».

Далі все просто. Людина вводить хвостатий запит у пошуковий рядок. Алгоритм розміщує його в трьохсотмірному просторі на відповідних паралелях і видає відповідь, яка максимально близько знаходиться до цього запиту в системі координат змодельованої.

Поки що система обробляє у пошуках відповіді не весь текст ресурсу, але в майбутньому планується перевести в семантичні вектори контент повністю. Це дозволить ще краще розуміти, чи відповідає вимогам користувача сайт, і формувати максимально релевантні результати пошуку.

Трохи прикладів, або «Палех» у дії

Теоретично здається все складно, але на практиці, якщо не мучити мозок і не намагатися уявити цей самий трисотмірний простір, все навіть дуже корисно і круто.

Ось скажемо, ви хочете знайти «ту розповідь, в якій розчавили метелика». Раніше ви витратили б тонну часу і результат виявився б невтішним. А ось сьогодні це буде зробити набагато простіше разом із «Палехом».

Вбиваємо в пошук «ту розповідь, в якій розчавили метелика» і отримуємо у відповідь інформацію про книгу «І гримнув грім» Рея Бредбері, а не сайти з «лівими» енциклопедіями та розповідями про метеликів:

Пошукова видача. сформована з урахуванням алгоритму «Палех»

Ще приклад. Скажімо, ви хочете знайти для своєї дитини "фільм, в якому лікар дав дівчинці цукерки сміху".

Нехай не на першому місці, але в ТОП-10 є правильна відповідь «Пригоди жовтої валізки»:

Замість виведення

Тільки технічноїоптимізації сьогодні замало. Пошуковики все більше прагнуть видавати відповідні відповіді на якісних сайтах. Не треба по 10 разів повторювати ключі у тексті, просто пишіть цікаво і для людей. А «Палех» подбає про те, щоб зрозуміти зміст і показати релевантну відповідь.

Чи помітите ви «Палех»? Поки важко сказати, потрібен час, щоб у ваших системах статистики накопичилися дані. Поки ми жодних змін не спостерігаємо, якщо щось з'явиться – як завжди, одразу поділимося.

Зараз у Мережі з'явилися побоювання, що недобросовісні сеошники почнуть множити сторінки та оптимізувати їх під НЧ. Але з іншого боку, який у цьому сенс? НЧ так багато, що під усе не підлаштуєшся. І потім, якщо на сторінках буде корисна інформація – чому б ні. =)