Порівняння аудиторій Хабрахабра, Гіктаймса та Мегамозку, SavePearlHarbor
Ще одна копія хабора
Порівняння аудиторій Хабрахабра, Гіктаймса та Мегамозку

Замість вступу
Для початку звернемося до предметної області. Що таке три колись єдині сайти? Якщо згадати пояснення творців, то коротко ідуже спрощено, специфіка кожного сайту така:
- Хабрахабр (далі – ХХ) – для власне IT-шників
- Гіктаймс (ГТ) – для гіків
- Мегамозок (ММ) – для ІТ-управлінців
Як і чим вирізняються аудиторії цих сайтів? На це питання докладно можуть відповісти, мабуть, лише співробітники ТМ. А ми подивимося, як відрізняються аудиторії однойменних пабліків у ВК.
Загальне перетинання (користувачі, підписані відразу на всі три паблики) –6 481
Бачимо цілком логічну картину. Оскільки ГТ і ММ є «нащадками» самого Хабра, вони поки що не можуть тягатися з ним ні за розміром аудиторії загалом, ні за відносною кількістю «унікальних» передплатників. Під «унікальними» передплатниками тут розуміються користувачі, підписані тільки на цей паблік і на жоден із двох інших. На малюнку вони виділені кольоровими областями, тоді як "неунікальні" - сірими. Для того, щоб найбільш чітко виділити відмінності аудиторій пабліків, аналізувати ми будемо саме «унікальних передплатників», тобто сірі області на малюнку – відкидаємо. Приклад, чому це необхідно робити, наведено нижче. Отже, приступимо.
Не будемо оригінальними і насамперед подивимося на відмінності за статтю:

Інтерактивний варіант (де можливо, я наводитиму посилання на інтерактивні діаграми, бо вони більш наочні та приємні оку)
Найбільше дівчат у відсотковому співвідношенні серед передплатниківМегамозку – майже третина. Найменше – у Гіктаймс (серед гіків рідше зустрічаються представниці «слабкої» статі?), а Хабр займає золоту середину. Причому ці відмінності статистично значущі.
Зверніть увагу, як відрізняється розподіл для унікальних та неунікальних користувачів: більшість передплатників ГТ та ММ – одночасно передплатники ХХ. Більшість передплатників ХХ – чоловіки. Через це починає спотворюватись і розподіл ознаки (в даному випадку статі) в інших аудиторіях. Саме тому ми аналізуємо лише унікальних передплатників.
Загалом нічого несподіваного ми не побачили: серед «технарів» традиційно більше чоловіків. Мегамозок, мабуть, найменш «технарський» проект з усіх, що визначає відносно високий відсоток дівчат. З підлогою визначилися, на черзі вік.
Подивимося на розподіл відносної кількості передплатників за роками народження (значення до 1975 року коливаються близько 0, тож цю частину графіка відкинемо для наочності):

У Хабра та GT досить плавні криві. Лінію Мегамозку «ковбасить» найбільше – ймовірно, це відбувається через відносно малу кількість респондентів. Але навіть незважаючи на це, очевидно, що «пік» у Хабра припадає на солідніший вік, ніж у його «дочірніх» сайтів, хай і всього на пару-трійку років. Напевно, такі відмінності є досить логічними. Хоча особисто я очікував, що Мегамозок матиме вікову публіку. Але, як відомо, мої сподівання – це мої проблеми.
При цьому відмінності між ХХ та ГТ, ХХ та ММ – статистично значущі, а між ГТ та ММ – ні (що, загалом і так видно з малюнка). Цікавий також сплеск активності в діапазоні 2000-2001 років, що спостерігається насамперед у Хабра, йому я пояснення не знайшов. Сильногосплеску чисельності аудиторії «Вконтакте» цього року народження немає. Тож сподіватимемося, що у молоді просто зростає інтерес до IT. Або це якось пов'язано з «дефолтними» віками при реєстрації в соцмережі.
Цього разу (на відміну від минулого дослідження) обмежимося країнами великої четвірки Хабра – Україною, Україною, Білоукраїнсією, Казахстаном. Країни далекого зарубіжжя відкинемо, бо навіть якщо країна в профілі користувача вказана правдиво (самі пам'ятайте, що часом вказують у графі «країна» хабравчани), то переважна більшість користувачів з таких країн – емігранти з пострадянського простору. Залишаються країни колишнього СРСР. Їх ми теж враховувати не будемо, тому що вони не дають скільки-небудь значущого (а іноді й зовсім не дають) числа унікальних передплатників для Мегамозку. Зрештою, близько 92% передплатників припадають саме на чотири вищезгадані країни, тож багато чого ми не пропустимо. І ось так виглядає розбивка «нормованої» кількості передплатників за ними:

Якщо ви пам'ятаєте, минулого року найзахопленішою країною стала Білоукраїнсія. Вона і зараз свого не упускає, але лише щодо Хабрахабра. У той час як дочірні проекти цікаві насамперед користувачам з України. Замикає четвірку Казахстан, окрім випадку з Мегамозком, де третє місце вирвано в запеклій боротьбі в України. Але за ММ взагалі спостерігається рівномірний розподіл. Найрізкіший спад інтересу до дочірніх паблік спостерігається в українських користувачів. Або в Україні менше цікавляться тематиками цих ресурсів, або за минулий рік користувачі цієї країни рідше підписувалися на паблики VK. Перевірка першої гіпотези виходить за межі нашого дослідження, а ось другулегко спростувати — достатньо поглянути на темпи зростання передплатників Хабрахабра за минулий рік (з моменту минулого дослідження) у розбивці країнами:

Як ми бачимо, всі країни «великої четвірки» показали однакове зростання, за винятком Казахстану, яке тут у однозначних лідерах.
Статистики з вузів цього разу не буде, вибачте. І ось чому: як ви пам'ятаєте, ми дивимось лише унікальних користувачів. Але розподіл у вузах розбиває передплатників на надто малі групи. Такі малі, що навіть для ГТ (не кажучи вже про ММ) часто не залишається унікальних користувачів. Через це вищий навчальний заклад може бути присутнім у списку вишів передплатника Хабра, але відсутній у списку для ГТ. Що створюватиме помилкове враження, ніби студентам/випускникам цього вишу Geektimes нецікавий зовсім. Зрозумілий приклад. Є такий ВНЗ, а точніше факультет ВНЗ — ФСПО ІТМО. З нього 30 осіб підписано на Хабр і 5 осіб на Geektimes. При цьому всі підписані на ДП підписані на ХХ. Як результат – кількість унікальних передплатників ГТ — 0. Що з таким вишом робити? Ігнорувати? Включати до статистики з особливою позначкою? Аналізувати за неунікальними користувачами? Загалом, надто багато питань, а цінність порівняння є сумнівною. Тож якщо когось цікавить статистика щодо конкретного вишу – звертайтеся, вивантажу.
Шкідливі звички
Стосовно куріння та алкоголю передплатники висловлюють дивовижну байдужість, навіть нецікаво:


Щоправда, можна помітити, що мегамозківці до шкідливих звичок ставляться трохи лояльніше. Мабуть, робота більш нервова 🙂 Але насправді це все не суттєві відмінності.
Політичні погляди
А ось відмінності в політичних поглядах виявилися значущими:

Найбільш небайдужими, ліберальними (але й консервативними!) виявилися передплатники Мегамозку. А найменш і найпомірнішими – «гіки» та хабравчани відповідно.
Сімейний стан
Ще цікавіші й розбіжності у справах любовних. «Вконтакте» надає кілька варіантів відносин, у яких полягає користувач. Ми їх трохи скомпонуємо, щоб було наочніше та зручніше:
| Є партнер | Є партнер У шлюбі Заручений Закоханий (так, можна бути закоханим без відповіді, але не будьте занудами) |
| Немає партнера | Немає партнера |
| В активному пошуку | В активному пошуку |
| - | Все складно |
Статус "все складно" виключимо - його складно трактувати, та й обрало його всього 3,2% передплатників. До того ж розділимо респондентів за статевою ознакою. І отримаємо цікаву картину:

Зв'язок між ВК та сайтами (лайки, рейтинги, ось це все)
У записів у VK ми будемо розглядати три основні числові показники:
У постів на сайтах показників трохи більше:
Ми бачимо, що найшвидше у відносному вираженні зростає аудиторія Мегамозга (недалеко від нього Гіктаймс), а найповільніше – Хабр. Це цілком логічно, враховуючи вік пабликів – молоді паблики зростають швидше. Але головна хороша для нас новина полягає в тому, що зміна числа передплатників практично ідеально описується лінійною функцією. Не доведеться сильно мучитися надалі, якщо захочемо врахувати впливцього чинника. Найпростішою регресією ми можемо передбачити чисельність аудиторії будь-якого з пабліків на будь-яку дату у досліджуваному періоді. Але доведеться цей фактор враховувати? Схоже, що ні:

Лайки досить рівномірно розмазані по всьому році. Виходить, що як не збільшується аудиторія паблика, щедрішою на лайки та репости вона не стає. До речі, зверніть увагу на «зазубрини» знизу на розподілі HH. Це ті самі вихідні, про які стільки разів йшлося в оглядах статей Хабра – мабуть тому, що статей виходить мало і хабражителі стають щедрішими на рейтинг. Ця закономірність якоюсь мірою перекочувала і в соцмережу. Але тільки для Хабра — на решту пабликів, як видно з графіків, вона не поширюється. Це підтверджується і коефіцієнтами кореляції для величин «кількість записів на день» та «середня кількість лайків».
- Хабрахабр -0.455
- Гіктаймс -0.237
- Мегамозок -0.169
Тепер, коли ми прояснили питання з найбільш очевидними залежностями, хочеться подивитися, як справи з іншими показниками. Для цього збудуємо кореляційні матриці для кожного паблика. Але пам'ятатимемо, що кореляція говорить про тісність зв'язку, але у загальному випадку не дозволяє встановити причину та слідство. Для наочності відобразимо матриці у такому вигляді:

Як бачимо, ситуація приблизно однакова всім пабликів. Серйозні відмінності є лише залежно від показника «обране» від лайків і репостів. У Хабра зв'язок досить явний, у решти значно слабший. Слід також відзначити практично лінійний зв'язок лайків та ріпостів, хоча це було досить очікувано.
Замість ув'язнення
Можна довго сперечатися, чи поділ Хабра був виправданий і з якою метою вінробилося, але вже зараз, трохи менше ніж через рік, починають виявлятися відмінності між аудиторіями трьох різних сайтів (або, принаймні, їх пабліків). Підсумовуючи, можна сказати, що поступово і Гіктаймс і Мегамозг починають жити своїм власним життям, набираючи свою унікальну аудиторію. Хоча поки що й незрівнянну за кількістю з аудиторією свого тата. Як поділ позначилося життя самого Хабра — інше питання, що виходить поза рамки цього посту.
На цій філософській ноті і закруглимося. До нових зустрічей, якщо таким судилося бути. І пам'ятайте, що статистика – лише третій вид брехні:)