Від революцій до розлучень, Кіт Шредінгера

1. Пости та неологізми

Для цього було опрацьовано 573 млн постів 3,2 млн користувачів (це майже 40% українськомовного фейсбуку): всі тексти автоматично розбивалися на слова, які потім шукали у Відкритому корпусі української мови OpenCorpora. Далі експерти вручну проціджували перелік неологізмів, створений зі слів, не знайдених у корпусі.

2. Хештеги та революція

Цим питанням задалися вчені з Кембриджу та Гарварда, які розробили програму, яка вираховує індекс політичної поляризації та вимірює рівень напруженості у суспільстві – близькість до революційної ситуації. Для цього дослідники перевірили 7000 повідомлень єгиптян у твіттері під час хвилювань 2013 року на наявність радикальних хештегов на кшталт «не забудемо, не пробачимо» — в Єгипті існує майже точний аналог цього висловлювання.

Хештеги — це такі позначки, які починаються зі знака «#», знайомлять із темою повідомлення та дозволяють розпізнавати «своїх» в інформаційній війні. Виявилося, що їхній аналіз цілком придатний для прогнозування: піки згадування радикальних хештегов справді передували реальним зіткненням.

3. Лайки та сексуальна орієнтація

«Людина — те, що вона гавкає», — могли б сказати вчені з Кембриджу, які досліджували лайки 58 тис. користувачів Фейсбуку і виявили взаємозв'язок між швидкоплинними уподобаннями та глибшими особистісними характеристиками.

Розроблена ними програма відрізняє білих від афроамериканців із точністю до 95%, республіканців від демократів – 85%, мусульман від християн – 82%. Менш успішно програма «вгадує» сімейний стан (точність — 65%), куріння (73%) та вживання наркотиків(65%). Дозволяють лайки судити і про сексуальну орієнтацію: для чоловіків — з точністю 88%, для жінок — 75%.

При цьому кореляції не завжди бувають прямими: наприклад, лише 5% геїв лайкали одностатеві шлюби та інші специфічні події. Програма робить висновки, спираючись на непрямі дані на кшталт музичних уподобань. Припустимо, поставити лайк Hello Kitty – означає визнати свою відкритість та емоційну нестабільність, а любителі спіральної картоплі фрі, напевно, ідентифікуються як володарі високого інтелекту.

4. Фейсбук та настрій

Його алгоритм знаходить у текстах емоційно забарвлені слова, список яких складено експертами (негативні - "страшний", "нудний", позитивні - "улюблений", "безкоштовний"). Далі вираховуються частки позитивних, негативних і нейтральних слів у тексті і вже за ними – індекси емоційності.

Виявилося, що позитивні тексти з'являються у фейсбуці у 7,5 разів частіше за негативні. Взагалі ж пости, як і користувачі, чуйно реагують на реальні події: на графіку добре видно спалахи радості у вихідні та свята та провали, що збігаються з війнами, стихійними лихами та масовими протестами.

5. Твіти та застуда

Міністерство охорони здоров'я США оголосило конкурс на найкращу програму, яка за твітами на кшталт «Здається, я захворів. Почуваюся зовсім розбитим» зможе відстежувати поширення хвороби. Перемогла команда дослідників з Університету Джонса Хопкінса.

Їхній алгоритм аналізує 5000 коротких повідомлень за хвилину і відсіває ті, що не стосуються здоров'я конкретного користувача (наприклад, «Обама сьогодні не вразив. Прихворів, напевно»). В результаті за відсотком «застуджених» твітів програма в режимі реального часу збираєдостовірну інформацію про кількість хворих у країні та шляхи поширення інфекції.

6. Френди та розставання

Навіть якщо ви вважаєте за краще не афішувати романістичні відносини, комп'ютерна програма все одно зможе обчислити вашого партнера у списку "френдів". Ну, не завжди, звичайно, але у 60% випадків. Алгоритм створили Джон Клейберг із Корнельського університету та інженер Facebook Ларс Бакстром. Для відпрацювання програми вони зібрали дані про 1,3 млн користувачів, які вказали свій сімейний стан і мали від 50 до 2000 френдів.