У пошуках ідеального посту, або загадки хабра, SavePearlHarbor

Ще одна копія хабора

У пошуках ідеального посту, або загадки хабра

Мені раптом представився цей ідеальний піст: щось неймовірно красиве, що викликає світле почуття, незрозуміле, як безмовна краса зірок. Як же його знайти, пост без єдиного мінусу?

З тих статей, що я читав, таких мені пригадати не вдалося, хоч би 1-2 мінуси, але обов'язково були. Виникла логічна думка, що якщо такі й були, то шукати їх треба десь наприкінці списку найкращих постів за місяць, бо саме там, за ідеєю, мали зустрітися пости, де за найбільшої кількості плюсів було найменше мінусів. Переглянувши кілька останніх сторінок (97-100), я виявив одну таку посаду.

На жаль дива не сталося, добрий піст, але нічого особливого. Тоді я подумав, що треба зібрати та проаналізувати всю статистику. Можливо серед постів із найменшою кількістю мінусів знайдуться якісь закономірності, наприклад максимум, який і вкаже мені заповітний ідеальний пост серед усієї множини, написаної за роки існування хабра.

Я скачав усі 100 сторінок «найкращих за весь час» постів, написав просту програму для аналізу та виділив для кожного посту кількість «плюсів» та «мінусів». Ось що вийшло:

хабра

Це графічно відображені вздовж осі Х тисяча найкращих постів, відсортовані за підсумковою оцінкою (рейтингом), показаним зеленим, а червоним – кількість мінусів. Видно, що мінуси досить сильно гризуть навіть найкращі статті. Можливо комусь здасться наочнішим інше зображення, де більш показано 500 найкращих постів, відсортовані за кількістю плюсів, тому мінуси виявилися «втиснутими» вглиб графіка:

хабра
Потім я відсортував посади за кількістю мінусів. Картина вийшла несподівана:
хабра
Спочатку я взагалі не зрозумів, що це. Тут кожен зубець - це пости з однаковою кількістю мінусів (ліворуч 1, 2 і т.д.), відсортовані всередині за кількістю плюсів. До речі, в результаті знайшлося всього 2 пости без жодного мінусу. Картина сама по собі цікава, але тут я звернув увагу ось на що: хоча за ідеєю висота зубців повинна мати нормальний або випадковий розподіл, видно, що перші 10 розташовані дивним подвійним драбинкою:
пошуках
Як так могло вийти , Що максимальний рейтинг постів з кількістю мінусів 1-5 послідовно зростає, потім слідує падіння, і потім від 6 до 10 знову рівномірне зростання? Я не знайшов жодного пояснення цьому факту, хіба що тут постаралися якісь надприродні сили.

Якщо подивитися на ту ж статистику за найкращими за місяць, ми побачимо нормальний розподіл, без жодних аномалій:

загадки

Почитавши статті на вершинах цих зубців, я подумав: цікаво, як розподілялися б пости, якщо враховувати кількість мінусів по-різному? Тобто, наприклад, помножити їх на 5, щоб угорі залишилися лише пости, де дуже мало мінусів. Я провів такий експеримент: припустимо, що є коефіцієнт негативності, і рейтинг з його врахуванням обчислюється як

де P - у плюсів, N - у мінусів, КН - коефіцієнт негативності.

Наприклад розглянемо кілька абстрактних постів:

— пост з корисною чи цікавою інформацією, за який поставили 130 плюсів, але деяким все ж таки щось не сподобалося, і вони поставили 4 мінуси; - пост з вітанням (ювілей ресурсу або винаходу), прийнятий позитивно (140 плюсів), але оскільки він загалом безглуздий, мінусів у нього багато, скажімо, 27; — пост на спірну тему, наприклад про копірайт, який набирає багато голосів, якпозитивних, і негативних; — корисна, але мало кому цікава посада, наприклад, про реалізацію якого-небудь специфічного алгоритму, набирає всього 27 плюсів, при цьому 8 осіб вважають, що треба було все зробити не так, і вони поставили мінуси.

При звичайній формулі рейтингу, коли коефіцієнт негативності КН = 1, пости розподіляться так: Якщо КН=5, то пости, де багато мінусів, йдуть вниз — копірайт опускається, поступаючись місцем статті про алгоритм: Ще збільшуємо КН, і день народження теж йде вниз, таким чином при збільшенні КН вгорі виявляються обидва тематичні поста, а спірні залишаються в хвості: Тепер переміщаємо двигун коефіцієнта негативності в інший бік, зменшуючи тим самим вага мінусів: Тут вперед одразу виривається день народження, який зібрав багато плюсів. А якщо ми ще зменшимо коефіцієнт: То побачимо, що на першому місці виявляється копірайт, посуваючи все інше вниз. Таким чином, за бажання користувачі-оптимісти могли б знайти пости, що мають найбільшу позитивну реакцію, незалежно від того, скільки мінусів вони набрали.

Я трохи поекспериментував з цим коефіцієнтом на реальних даних і на статистиці найкращих постів, побудував графіки, які стали виглядати досить химерно, тому що вони тепер перетинали вісь x, але це виявилося не особливо цікавим, тому я вирішив побудувати графік постів у площині оцінок. По осі X - плюси, по осі Y - мінуси:

savepearlharbor
Щось у цій картині заворожує, ніби іскри, що летять у простір, я довго дивився на неї, коли вперше побачив. Це графік для найкращих постів за весь час, де видно, що вони відсічені кордоном найгіршого рейтингу (170) серед найкращих постів за весь час. А на початку статті я помістив графік за місяць, де відсікаютьсятільки відхилені. По обох картинках наочно видно те, що ми всі знаємо і так: рідкісний пост на хабрі долітає до 500 плюсів, а більшість розподілені по площині майже рівномірно. Тут я остаточно переконався, що немає ніякого ідеального посту, і що спроби знайти його треба залишити, інакше наслідки можуть бути непередбачувані.

Але що ж змушує хабраюзера натиснути на плюс чи мінус? Насправді ця думка виникла в мене набагато раніше, ще до того, як я побудував перший графік, наведений тут. Можливо я неправий, але яке у мене склалося враження:

Хоча це сайт для IT-шників, які, як багато хто вважає, повинні думати як машини, неупереджено оцінюючи тільки корисну інформацію, і відкидаючи все інше, мені здається, хабровчани в оцінці постів керуються не тільки розумом, а й почуттями. Вони використовують кнопки під постом за прямим призначенням, як і написано в хінті: «подобається» або «не подобається».