Різниця між статистикою та наукою про дані
Здрастуйте, шановні читачі. Ми знову спробуємо порадитись з вами щодо актуальності орейлівської новинки. Цього разу йтиметься про статистику для Data Science.

У книзі розглянуто лаконічні кейси з невеликою кількістю графіків та прикладів мовою R.
Зрозуміло, величезний і попит на фахівців із дослідження даних. Минулого року портал Glassdoor позначив цю професію як топ-спеціальність 2016 – навівши як приклад 1 700 відкритих вакансій із середньою річною зарплатою $116k.
Але після того, як я проштудіював пост з Data Science, а потім відповідь з Quora на питання з бізнес-школи (до речі, там були й глибокі думки) – намагаючись зрозуміти цю модну тенденцію, питань у мене тільки побільшало. Усі трохи по-різному визначали, чим є Data Science, і чим – ні. За кілька годин я вже не був певен, що феномен Data Science взагалі існує.
Як незабаром з'ясувалося, відповідь пов'язана не тільки з умінням програмувати, але і з глибоким розумінням продукту, що створюється.
Скептичний статистик
Схоже, Нейт Сільвер не бачить різниці між наукою про дані та статистикою. Він – знаменитий обчислювач, ключовий фахівець із медійного сайту FiveThirtyEight – і та сама людина, яка чітко спрогнозувала підсумки голосування на президентських виборах 2008 року в 49 із 50 штатів США. У 2012 році йому вийшло вже 50 з 50. І він сприймає термін «data science» скептичніше.
"Думаю, data-scientist - розпіарений синонім для "спеціаліст зі статистики"" - заявив Сільвер у 2013 році на лекції в Joint Statistical Meeting.
“Статистика – це наукова дисципліна. Термін «наука даних» трохи надмірний, тому краще користуватися терміном «статистик».”
Статистикам весь тренд, пов'язаний з наукою про дані, здається трохи зарозумілим. Не важливо, якою саме є точна дефініція «науки про дані» — так чи інакше, ця сфера діяльності дуже перетинається з тією роботою, якою статистики займаються вже не одне десятиліття.
Навіть якщо наука про дані – щось особливе, я не міг зрозуміти, навіщо всім цим компаніями легіони таких фахівців. Чому робота така крута? Може бути, компанії просто наслідують Google, Facebook і Netflix, бажаючи їх прибутків та ринкової вартості?
Засмутившись, я черканув коротке повідомлення один одному, CTO. Він блискавично відреагував: "навіть чути про них не хочу".
Кілька місяців він співбесідував кандидатів на позицію data scientist, відкриту в їх компанії. Виявилося, що самозвані data scientist'и більш ніж туманно уявляли, ніж вони мають займатися. Кожен кандидат мав трохи інший набір навичок, і ще більш своєрідне розуміння кола своїх завдань.
"99% кандидатів - не data scientist'и," сказав він. "Вони не вміють робити те, що нам потрібно." Очевидно, навіть ті, хто виступає на захист цієї професії, не зовсім розуміють, де закінчується статистика і починається наука про дані.
Людина, яка знає відповіді
У пошуках відповідей я написав Дрю Харрі (Drew Harry), директору з data science у Twitch. Минулої осені ми з ним обговорювали статтю про те, як укрупнився Twitch. Якщо хтось міг вказати мені шлях, то саме Дрю.
“Так, я знаю одного колегу з цікавими думками щодо цього,” написав він. А через кілька днів я вже прийшов на зустріч із Бредом Шлумічем (Brad Schumitsch), ми вирішили посидіти в кафе поблизу головного офісу Twitch у Сан-Франциско.
“Ну, розкажи мені, що думаєш про науку даних істатистики,” питає Бред. А потім спокійно сидить, сьорбає гарячий шоколад і уважно мене слухає - а я, вже після двох чашок кави, скачу від мови R до управління конвеєрами даних і далі до алгоритмів.
У Бреда є потрібні мені відповіді, але він як хороший data scientist починає задавати питання, щоб позначити вихідну позицію.
Після того, як я завершую мої викладки, Бред чемно відповідає: “Все це дуже слушні зауваження, але взагалі тема непроста. Взагалі – чудова тема, саме тому, що є що обговорити.”
Помовчавши, він починає: "По-перше, я дуже поважаю статистиків."
Він підкреслено неквапливо і не соромиться робити паузи, щоб зібратися з думками. “Статистика – найважливіша складова науки даних. У нас у Twitch команда data science має три компетенції: статистика, програмування та розуміння продукту. Ми ніколи не взяли б на роботу людину, яка слабо орієнтується у статистиці. Ти можеш бути класним програмістом, але якщо не знаєш, що таке байєсовський висновок – то у нас є й інженерний відділ, можу проводити”.
“Дехто вважає, що наука про дані – це лише прикладна статистика, але ми – безумовно не просто статистики. Я потребую не тільки людей, які б займалися теоретичними дослідженнями зі статистики. Ніхто в мене не повинен писати такі статті, як Фішер», продовжує він, маючи на увазі Рональда Фішера, родоначальника сучасної статистики та експериментального дизайну. – «Набагато важливіше вміти застосовувати зроблені висновки». Звісно, у такій компанії як Twitch подібне «застосування» потребує глибоких знань інформатики.
Не лише статистика
У статистичній спільноті все частіше говорять, що межі статистики потрібно розширити, наприклад,уважніше ставитись до збору, подання даних та управління ними, щільніше займатися прогнозуванням результату, а не просто логічно вибудовувати взаємозв'язки. Існує безліч напрямів, у яких могла б зростати статистика. Замість того, щоб просто робити підручник, а потім повертатися до теоретичних розвідок, статистики повинні налагоджувати комунікацію.
Наприклад, кілька десятиліть тому кванти (статистики, зайняті кількісним аналізом) корпіли над цифрами в кабінетах і передавали отримані дані заінтересованим особам – наприклад, трейдерам – щоб ті могли вживати потрібних заходів. Сьогодні data scientist'и пишуть алгоритми, які здатні у повністю автоматичному режимі поглинати дані, все прораховувати та укладати угоди – все це у частки секунди.
Очевидно, що коріння всього цього – у статистиці. Я розумію, чому багато хто, у тому числі, шановний Нейт Сільвер, можуть змішувати її з наукою про дані. Але сфера професійної діяльності дослідників даних не обмежується статистикою. Інформатика збагачує багато дисциплін, надаючи їм нові аспекти. Маркетинг + програмування = зламування зростання (growth hacking). Ймовірно, статистика + програмування = наука даних. Як би я хотів повернутись на ті заняття Udemy, які прогулював.
Епоха динамічних продуктів
Двадцять років тому ті сайти, на які я заходив з II si в комп'ютерному класі, здебільшого являли собою статичні документи. Але з такими сторінками далеко не поїдеш, тому незабаром з'явилися більш складні сайти, що реагували на введення користувача. Наприклад, Google – на ньому приймали від користувача пошуковий запит, а потім надавали список відповідних веб-сторінок.
Коли ви відкриваєте Facebook, починається формуваннястрічки новин, і в її оптимізації бере участь незліченна безліч факторів. Уілл Оремус (Will Oremus), старший технологічний письменник порталу Slate описує цей процес у своєму чудовому дослідженні алгоритму, що лежить в основі стрічки новин Facebook.
Але як все це вплести в продукт? Чи є багато користі в одній ретроспективі? Facebook потрібен алгоритм, що дозволяє проаналізувати все це, поки вантажиться сторінка, спрогнозувати та надати оптимальну стрічку новин. Ось цим і займається data scientist.
Ось чому такі спеціалісти потрібні у технічних компаніях. І чому вони, нехай і працюють зі статистикою - далеко не «ті самі фахівці, вид збоку».
Але успіх у науці про дані також вимагає і глибокого розуміння продукту, з яким працюєш.
Питання у питанні
У Twitch повно чудових фахівців, і не всі вони знають статистику. Тому, щоб досягти результату, потрібно налагодити контакт між дослідником даних та продукт-менеджером,” вважає Бред.
Поки ми обговорюємо роль data science у розробці продукту, Бред постійно згадує про «ефективність».
"Набагато ефективніше працювати, якщо всі однаково розуміють зміст продукту, вирішують, які параметри важливіші, розуміють з погляду програміста, як реалізувати трекінг, і з погляду статистика - як робити аналіз".
Не розуміючи, як люди користуватимуться продуктом, і які цілі компанії, можна спотворити весь аналіз даних. Завдання data scientist'а – пам'ятати відразу всю цю інформацію, а коли хтось прийде до відділу з нечітко визначеною проблемою – знати, до яких даних звернутися, щоб відповісти на запитання.
Різносторонні умільці
Озираючись назад, я розумію, чому так складно дати дефініцію цієї сфери.оскільки фахівці у ній працюють на стику статистики та програмування, а також статистики та виробництва. Тим більше зрозуміло, як складно підібрати таке визначення, якщо сам формуєш команду з data science.
Нинішній data scientist химерно поєднує у собі риси економіста, фізика та математика. Це рідкісна людина, яка, завдяки обставинам, що склалися, і правильної освіти також є класним інженером і обчислювачем. Але таких людей знайти важко. Досвід показує, що не кожен, хто претендує на позицію data scientist, у принципі здатний пояснити, що це таке.
Мабуть, якщо всі ми дійдемо спільної думки, чим повинні займатися data scientist'и, таких постів стане менше. Але все одно залишається відчуття, що ажіотажний попит на справжніх фахівців у цій сфері поки що зберігатиметься.
Тільки зареєстровані користувачі можуть брати участь в опитуванні. Заходьте будь ласка.