Учасник Vokov

Матеріал із MachineLearning.

InTalent – профорієнтація та додаткова освіта для старшокласників.

- Чим ви займаєтеся?

– Я займаюся наукою про дані, англійською мовою Data Science. Це розділ інформатики, що вивчає способи переробки даних, що збираються та накопичуються за допомогою комп'ютерів, корисні людям знання, прогнози, рішення. Науки даних охоплюють як щодо старі дисципліни — прикладну статистику, аналіз сигналів, прогнозування, розпізнавання образів, і нові — комп'ютерний зір, машинне навчання, глибоке навчання, data mining (видобуток знань із даних), business intelligence (інтелектуальні системи бізнесу ).

– Все частіше доводиться чути слова «машинне навчання» та «глибоке навчання». Це те саме, і якщо ні, то в чому відмінності?

- Машинне навчання (machine learning) - це великий підрозділ штучного інтелекту, що вивчає методи побудови алгоритмів, здатних навчатися за даними. Глибоке навчання (deep learning) - це вузька підобласть машинного навчання, в якій вивчаються та застосовуються нещодавно відкриті нові методи навчання штучних нейронних мереж. Штучні нейронні мережі ґрунтуються на принципі роботи людського мозку. Процеси обробки інформації у нашому мозку схожі на паралельні обчислення. Ще в п'ятдесяті роки було створено досить успішні математичні моделі, що імітують роботу нейронів головного мозку. Довгий час вчені вважали, що двох-трьох шарів нейронів достатньо, щоб відтворити обчислення будь-якої складності, і навіть роботу біологічної нейромережі. Проте за швидкістю реакції людини можна оцінити, що у обробці сигналів беруть участь у середньому 10–15 верств. Мабуть,природа не просто так розпорядилася. З розвитком технічних можливостей модель удосконалили і виявилося, що багатошарові мережі дійсно працюють краще. Це відкриття призвело до появи глибокого навчання.

– Де застосовують машинне та глибоке навчання?

– Глибоке навчання застосовують для вирішення завдань, в яких початкові дані мають складну структуру. Це можуть бути зображення, тексти, сигнали, які потрібно перетворити на зручний для машини вигляд. Поява глибоких мереж покращила якість розпізнавання зорових образів стрибком на 10–15% і зробила його порівнянним із людським зором. До цього комп'ютерний зір покращувався на частки відсотка на рік ціною величезних зусиль усієї наукової спільноти. Тепер технічні пристрої можуть розпізнавати написи, номерні знаки, предмети, особи людей. Літальні апарати, наділені комп'ютерним зором, можуть розпізнавати, що з об'єкти розташовані внизу.

– Як ви прийшли у професію?

– Мені завжди хотілося займатися математичним моделюванням та програмуванням. ВНЗ та кафедру я вибирав таким чином, щоб поєднати ці два захоплення і надалі мати можливість займатися чим завгодно, де застосовується математика. Тому я вступив до МФТІ на факультет управління прикладної математики. Після другого курсу, коли треба було обирати кафедру, я вибрав ту, на якій, як мені здалося, найширший спектр прикладних завдань, і потрапив до Обчислювального центру української академії наук.

Пізніше я дізнався, що цей принцип залишати собі максимальну свободу вибору для прийняття наступних рішень у філософії називається принципом неостаточних рішень Габора. Цікаво, що він також застосовується у деяких алгоритмах машинного навчання.

Взагалі, це дуже гарна і приваблива ідея, що та сама математика може використовуватися в медицині, біології, геології, соціології, бізнесі. Ніколи не знаєш, чим займатимешся через три роки. Можна міняти вид діяльності, залишаючись компетентним спеціалістом із великим досвідом роботи. Наприклад, зараз я займаюся аналізом текстів, комп'ютерною лінгвістикою. Якби мені п'ять років тому про це сказали, я не повірив би.

– Яку освіту потрібно здобути, щоб стати фахівцем у машинному навчанні?

– Головне – любити математику, програмування та комп'ютерні технології. Ще дуже важливо бути в душі дослідником, тобто цікавитись, як улаштований світ. Будь-яке завдання машинного навчання — це математичне моделювання якоїсь конкретної предметної області, у якій вам має бути не противно розбиратися, причому робити це треба швидко і глибоко.

Машинне навчання, і особливо глибоке навчання, сьогодні на піку популярності. Але я не рекомендував би обмежуватися тільки цим. Популярність приходить і йде, та й не кожне завдання зручно вирішувати за допомогою глибокого навчання. Важливо вміти підібрати метод під завдання, а не підходити до будь-якого завдання зі своїм універсальним молотком. Можна стати фахівцем з Data Science, потрібно добре знати такі розділи математики, як теорія ймовірностей, математична статистика, методи оптимізації, лінійна алгебра, структури даних та алгоритми. З інформатики знадобляться технології баз даних, паралельні та розподілені обчислення, мова програмування Python. Для московських вузів я б порекомендував МФТІ, факультетобчислювальної математики та кібернетики МДУ, зокрема, кафедру математичних методів прогнозування, яка давно займається машинним навчанням. Добру вищу освіту можна здобути і на факультеті комп'ютерних наук у НДУ ВШЕ, створеному спільно зі Школою аналізу даних «Яндекса». З навчальних закладів Санкт-Петербурга я б виділив ІТМО та СПбГУ.

– Які компетенції необхідні фахівцю з машинного навчання?

– Бути «універсальним солдатом» аналізу даних означає вміти багато чого: формалізувати вимоги замовника, розібратися у спеціальній літературі, знайти та застосувати стандартні методи, при необхідності винайти свої, більш «заточені» під завдання, впровадити, протестувати, знайти помилки, повернутися на початок , щоб їх виправити, і так кілька разів по колу. Це сценарій типового проекту з аналізу даних. Якщо ти вмієш щось із цього, то ти простий виконавець. Якщо ти пройшов все коло багато разів і вмієш працювати з людьми, то готовий керувати такими проектами.

Мені здається, що головне не в компетенціях. Аналіз даних — це творча робота, здатна приносити задоволення. Мене свого часу зачарувала можливість змусити комп'ютер робити те, що я хочу, і так захопився програмуванням. Коли професія збігається із хобі, компетенції напрацьовуються дуже швидко.

- Чи будуть фахівці з Data Science затребувані в найближчому майбутньому?

– Сьогодні ми бачимо справжній бум Data Science. Це з тим, що кілька десятиліть комп'ютери повсюдно збирають дані. Закономірно постало питання, що з цими даними можна зробити. Як із них отримати користь для бізнесу, виробництва, науки? Не дивно, що фахівці з молодої дисципліни Data Science, які вміють використовувати дані дляотримання корисних знань та створення автоматичних систем, зараз дуже потрібні. Чим «комп'ютеризованішим» буде наше життя, тим більше людей займатимуться аналізом даних. Це професія майбутнього.

Крім того, ми ще не знаємо всіх можливостей штучного інтелекту. Нас, напевно, очікують нові прориви, схожі на той, що вже трапився у комп'ютерному зорі. Наприклад, у 2016 році стався вибух інтересу до чат-ботів (віртуальним співрозмовникам — прим. сайту). На мій погляд, це перегріті очікування, і замість розмовного інтелекту ми поки що бачимо його імітацію. Однак, коли сотні тисяч розумних людей по всьому світу з ентузіазмом беруться розробляти модний науковий напрямок, з цього іноді зрозуміло.

- Якщо фахівцю з машинного навчання захочеться спробувати себе в іншій галузі, куди він може піти працювати?

– Фахівець із аналізу даних завжди працює на стику з якоюсь іншою областю. Це може бути медицина, геологія, фінанси, зв'язок, транспорт, промислове виробництво, соціологія, маркетинг та що завгодно! Можна пропрацювати кілька років в одній області і залишитися там. Іноді спостерігаю протилежну картину. Люди інших професій починають захоплюватися аналізом даних та машинним навчанням, коли бачать, які великі можливості воно відкриває.

- Чи існують гуртки, де школярі можуть отримати практичні знання з машинного навчання?

– З кожним роком у підлітків з'являється все більше можливостей спробувати майбутню професію. Цього літа я викладав у проектній зміні Освітнього центру Сіріус. Центр приймає дітей віком від 10 до 17 років. Ми зі школярами займалися аналізом електрокардіограм для медичної діагностики.Багато реальних завдань аналізу даних можна спростити до доступного дітям рівня математики та програмування. У хлопців з'являється величезний ентузіазм, коли вони бачать, що це справжня справа, що вона потрібна людям. Ми ставили завдання у вигляді конкурсу, гри змагань, і це теж знижувало вхідний бар'єр. Конкурс аналізу даних стає точкою входу в предметну область, наприклад, в медицину. Це якийсь зовсім новий елемент у шкільній освіті. Тут є над чим разом подумати вченим та педагогам.

У Москві школярі можуть приєднатися до малого ШАДу – школи аналізу даних для старшокласників, організованої компанією «Яндекс». Крім того, школяр може взяти участь у різноманітних конкурсах з аналізу даних.

– Що є конкурсами з аналізу даних?

Конкурси з аналізу даних можуть бути не тільки для пошуку нових бізнес-рішень, а й сприяти популяризації науки серед школярів та студентів. Ми вже працюємо над створенням ресурсу, на якому компанії та університети могли б викладати свої завдання у формі конкурсів аналізу даних, супроводжуючи їх просвітницькими та навчальними матеріалами. Компанія Kaggle викладає досить скупі описи завдань, розраховані на професіоналів. Нам хотілося б змістити цей акцент, щоб будь-який бажаючий міг розібратися в задачі та взяти участь у її вирішенні. Це дасть школярам та студентам шанс позайматися реальною справою, вирішувати проблеми на передньому краї науки та технологій та отримати вхідний квиток у цікаву професію.

- Чи є у вас якась рольова модель? Про кого школярам було б корисно дізнатися?

- Якоїсь однієї моделі немає. Було багато людей, які надихали. Одним із перших був Вчитель мого Вчителя, академік Юрій ІвановичЖуравльов. Коли я був студентом Фізтеха, він розповідав нам, як у 60-х роках йому дісталося завдання про прогнозування родовищ золота на території СРСР. Завдання виглядало цілком «згубним» з погляду математичної статистики тих років — побудувати функцію в 150-мірному просторі за 17 точками. Тоді було придумано оригінальне рішення, яке використовується у машинному навчанні до цього дня. І було знайдено два родовища, рівно там, де вказав алгоритм. Коли я потрапив до Журавльова у відділ, він нам «по секрету» розповів, що геологам не менш важливим виявився спосіб табличного подання даних, який привнесли математики. Коли дані було впорядковано і систематизовано, геологи стали помічати у яких закономірності без жодних комп'ютерних обчислень. Ми звикли до банальної істини, що математика — це універсальна мова, здатна навести лад у будь-якій складній галузі. Але коли тобі показують, як це відбувається у кожному конкретному випадку, це завжди яскраво та несподівано. Відкриття часто відбуваються не там, де на них очікують.

- Що ви могли б порадити почитати або подивитися школярам, що зацікавилися машинним навчанням?

Нещодавно у видавництві «Манн, Іванов та Фербер» вийшла популярна книга досить відомого вченого Педро Домінгосу «Верховний алгоритм». У ній немає формул, але є безліч прикладів того, як машинне навчання входить у наше життя. Здається, йому вдалося зробити неможливе — книга буде цікавою і школяреві, і бізнесмену, і професіоналу в галузі аналізу даних.