Як розраховуються та що означають параметри в аналізі текстів SEO-проривбаза знань
На даний момент звіт містить такі параметри:
слів всього
Загальна кількість слів у аналізованому фрагменті.
Кількість малозначимих, які у більшості текстів слів. Наприклад, до стоп-слов відносяться: «було, всього, ще, як, коли, який, самий». Стоп-слова використовуються і в подальшому аналізі при розрахунку багатьох інших показників.
Важливо: різні послуги використовують свої списки стоп-слів, що призводить до розбіжностей. Список bez-bubna.com складено на основі доповнення кількох публічних списків. Саме він використовувався у дослідженні алгоритму Баден-Баден.
Питання: чи можна отримати перелік стоп-слів сервісу?
Відповідь: не можна, тому що це конкурентна перевага сервісу. Список був протестований у детальних дослідженнях переоптимізованих текстів та довів свою ефективність, саме за його допомогою розраховані пороги потрапляння під фільтр. Це важлива частина алгоритму, віддавати (і навіть продавати) її конкурентам немає сенсу.
унікальних словоформ
Для визначення кількості словоформ фільтруються всі повтори слова у конкретній формі. Наприклад, у рядку «У лісі народилася ялинка, у лісі вона росла... зрубав він нашу ялинку» відфільтрується «лісу», а «ялинка» та «ялинку» немає.
унікальних лем
Аналогічно попередньому – перед підрахунком текст лематизується, тобто слова наводяться до початкової форми. Якщо розглянути попередній приклад, то «ялинка» та «ялинку» зводитимуться до однієї і тієї ж леми.
класична нудота
Квадратний корінь із кількості входжень найчастішого слова. Очевидно, не є самостійним корисним сигналом.
академічна нудота
Також неє самостійним корисним сигналом.
Важливо: академічна нудота розраховується у різних сервісах різними методиками. Усталеної загальноприйнятої формули для розрахунку немає, тому я вивів власну. Академічна нудота в bez-bubna.com розраховується на основі кількості слів, які зустрічаються в тексті 2 і більше разів і загальної кількості слів. Чим більше входження різних слів у текст і чим менший його обсяг, тим вища академічна нудота. Відмінність від класичної — у тому, що добавку у підсумковий показник дає кожне слово, що зустрілося більше 1 разу, а не лише найчастіше.
варіативність
Розраховується як різниця між одиницею та ставленням «унікальні леми/унікальні словоформи». Додатковий слабкий сигнал; на природних текстах дещо вище, на спамних – нижче.
Різниця між одиницею та ставленням «кількість слів після очищення стоп-слів/кількість слів у вихідному тексті». Сторінка, яка взагалі не містить стоп-слів, матиме водність 0, що містить тільки стоп-слова — 1. Неприродні тексти під санкціями дуже часто мають підвищену водність.
ТОП-3 біграм
Три найбільш популярні у тексті стійкі поєднання із двох слів разом із кількістю входжень. Ці дані потрібні знаходження «спамних» висловів (хоча далеко ще не кожне стійке поєднання — спам!).
ТОП-3 триграм
Три найбільш популярні у тексті стійкі поєднання із трьох слів разом із кількістю входжень. Аналогічно.
нудота біграм
Для обчислення береться сума числа входжень трьох найчастіших біграм. Сума поділяється на кількість слів у тексті (без урахування стоп-слів та слів коротше 3 букв), щоб оцінити відносну частоту. Термін «нудота» використаний для простоти, як усталенепозначення.
Зазвичай є корисним сигналом; на спамних текстах вище.
Примітка: у сервісі для зручності показується результат обчислення, помножений на 100 та округлений до третього знака після коми.
нудота триграм
Аналогічно нудоті біграм. Для обчислення береться сума числа входжень трьох найчастіших біграм. Сума поділяється на кількість слів у тексті (без урахування стоп-слів та слів коротше 3 букв), щоб оцінити відносну частоту.
Зазвичай є корисним сигналом; на спамних текстах вище.
Примітка: у сервісі для зручності показується результат обчислення, помножений на 100 та округлений до третього знака після коми.
індекс біграми/уніграми
Аналогічно нудоті біграм, але кількість входження топових біграм ділиться не так на загальну кількість слів у тексті, але в кількість входження слів, у тому числі складаються біграми (уніграма — 1 слово).
Зазвичай є корисним сигналом; на спамних текстах вище.
індекс триграми/уніграми
Аналогічно індексу біграм. За результатами дослідження на великій вибірці цей показник демонструє максимальні відмінності на «нормальних» та «спамних» текстах.
відповідь сервера
Технічна інформація. У нормі має бути 200. Якщо інший, ймовірно, сталася помилка (наприклад, ваш сервер захищається від парсингу та підсовує не той текст).
тип парсингу
Відповідно до налаштувань сервіс може або аналізувати весь html, або намагатися вирізати значну частину, або слідувати розмітці тегами та . Якщо з тих чи інших причин використовувати другий чи третій спосіб не вдасться, буде проаналізовано весь html, що буде відображено у звіті.