Як працює метод шинглів під час перевірки тексту на плагіат, SEOOKI
Суть методу
Шингл - це канонізований шматок тексту довжиною від 3 до 10 слів.
Канонізація — це приведення тексту у необхідний роботи вид. Вона може проводитися таким чином: зі шматка тексту забираються всі прийменники, спілки, стоп слова і розділові знаки, а самі слова перекладаються до називного відмінка. Наприклад, візьмемо фразу: «Київське літо цього року було дуже сонячним» і її канонічний вигляд матиме такий вигляд: «київ літо рік сонячно». Канонізація осушує весь текст залишаючи лише основні смислові слова.
Унікальність шингла -шингл вважається унікальним, якщо в пошуковій базі не зустрічається жодної згадки даної фрази.
Унікальність тексту - вираховується за відсотковим показником унікальних шинглів. Наприклад, якщо текст складається зі 100 шинглів і 95 їх унікальні, то унікальність тексту 95%.
Як вже можна було здогадатися за визначеннями, текст перед обробкою канонізується, потім розбивається на шингли потрібної довжини і потім ці шингли перевіряються на наявність у пошуковій базі, після чого ми отримуємо загальну унікальність тексту.
Застосування у SEO
На жаль сучасні послуги перевірки унікальності контенту не використовують алгоритм канонізації, та й не можуть, тому що у них немає доступу до внутрішньої бази пошукових систем, тому їх досить легко обійти просто змінивши кілька слів у тексті на синоніми або додавши розбавлювальні слова. Публікуючи подібний текст на сайті, ви ризикуєте не отримати абсолютно ніякого ефекту від вашої стратегії просування навіть у низькочастотних запитах.