Біоінформатика, Чебурашка та DREAM-ENCODE

Перший раунд змагання з машинного навчання в біології DREAM-ENCODE, присвячений міжнародній конференції DREAM, виграла команда autosome.ru з України. Члени команди - Іван Кулаковський, провідний науковий співробітник Лабораторії обчислювальних методів системної біології ІМБ РАН, Григорій Сапунов, співзасновник Inten.to і Всеволод Макєєв, член-кореспондент РАН, завідувач лабораторії Системної біології та обчислювальної генетики ІОГен РАН віці» про комп'ютерний аналіз регуляторних ділянок геному і про деякі помилки, що живуть у сучасному суспільстві.

XX 2 СТОЛІТТЯ: Перше питання — як можна пояснити, що таке фактори транскрипції, для тих, хто далекий від науки?

Іван: По суті, це локальні перемикачі активності генів.

Згадаймо основи молекулярної біології і подивимося на геном як абстрактну послідовність нуклеотидних основ — літер «А, Ц, Р, Т». Найбільш вивчені ділянки послідовності, що кодують білки, тобто білок-кодуючі гени. Корисно розуміти, що у вищих еукаріотів білок-кодуючі гени покривають лише малу частку геному, для геному людини лише 1—2 %. Перше питання - що ще важливого записано в геномі, крім генів, що кодують білки. Друге питання - як на підставі однакового геному реалізується вся різноманітність типів клітин в одному багатоклітинному організмі.

XX 2 СТОЛІТТЯ: Якщо вчені зможуть виявити алгоритм, за яким білки зв'язуються з ДНК, як вони зможуть його використовувати? І чи вірите ви, що незабаром цей алгоритм буде виявлено?

Іван: Глобальне завдання досить масштабне: хромосоми еукаріотів складним чином укладені в ядрі клітини в заплутаний клубок, якісь ділянки геному надзвичайно щільно упаковані і недоступні длявзаємодії, інші ділянки вже пов'язані білками-конкурентами. Придумана маса експериментальних методів картування сайтів зв'язування, зайнятих конкретним білком, але сам експеримент є трудомістким, а отримані дані - досить «шумними». Проблема ускладнюється тим, що факторів транскрипції дуже багато (у людини — щонайменше півтори тисячі), і в різних типах клітин вони працюють у різних комбінаціях. Тобто для кожного фактора транскрипції експеримент доведеться проводити окремо в кожному типі клітин. І нарешті, методично не так просто перейти від клітинних культур, вирощених «у пробірці», до нормальних клітин та органів.

У свою чергу, експериментально визначивши карту доступних регіонів геному (т.зв. «відкритий хроматин») у конкретному типі клітин можна передбачити зв'язування конкретних факторів транскрипції за допомогою обчислювальних методів.

Не можна сказати, що ми вже повністю розуміємо, як білок знаходить свої сайти зв'язування, але за допомогою комбінації експериментальних та комп'ютерних підходів можна отримати детальну «геномну карту» сайтів зв'язування. Карта показує, де знаходяться регуляторні області, які гени потенційно перебувають під керуванням. Глобальні цілі – розшифровка «граматики» регуляторних областей, інжиніринг регуляторних послідовностей із потрібними властивостями. З погляду практики — підбір «коктейлів» із факторів транскрипції та контрольована зміна типів клітин для завдань регенеративної медицини та моделювання хвороб різних тканин та органів. Вже зараз докладна геномна карта сайтів зв'язування дозволяє передбачати наслідки можливих мутацій у регуляторних областях, що зачіпають активність конкретних генів.

Всеволод: Я хочу додатково звернути увагу на те, що прямімедичні програми редагування генів, все-таки ризикована справа. Іван не дарма сказав про «моделювання хвороб», тобто зміни, які дозволяють відтворити в «штучних органах» мутації, що призводять до спадкових захворювань, вивчити їх перебіг, і тим краще зрозуміти механізм їх виникнення та можливу терапію. З точки зору безпосередніх додатків більш реальними виглядають програми в галузі біотехнологій. Можна намагатися змінювати методами редагування регуляторних районів динаміку роботи генів у свійських тварин чи сільськогосподарських рослин, домагаючись появи нових споживчих властивостей.

XX 2 СТОЛІТТЯ: Розкажіть про метод, завдяки якому ви виграли у змаганні.

Іван: Хочеться сказати кілька слів про сам конкурс — спільний проект міжнародного консорціуму ENCODE та ініціативи DREAM. ENCODE вже понад 10 років займається анотацією регуляторних районів у геномах людини та миші за допомогою різних експериментальних методів. DREAM, у свою чергу, проводить різноманітні змагання щодо застосування методів машинного навчання для широкого спектру біологічних завдань.

Опубліковані результати ENCODE отримані на безсмертних клітинних лініях, але на новому витку консорціум проводить і досліди на зразках живих тканин. Завдання змагання DREAM-ENCODE — передбачити зв'язування факторів транскрипції у нормальній тканині, використовуючи знання відкритих районів хроматину та особливості геномної карти сайтів зв'язування, отриманої на клітинних лініях. Це завдання має простий практичний додаток: у перспективі можна обмежитися мінімальним набором дослідів на первинних тканинах і органах і максимально перевикористовувати вже готові дані.

Наш метод ґрунтується на осмисленому виборі «тренувальних» даних.Для цього ми вигадали простий алгоритм, у робочій версії названий «Чебурашкою» за наївний підхід. Так Чебурашка став неформальним талісманом команди.

А для підсумкових пророцтв використовували добре відому бібліотеку машинного навчання — XGBoost. Думаю, що саме комбінований підхід дозволив нам успішно виступити у першому раунді змагання, присвяченому профільній конференції DREAM. Переможці першого раунду розкривають карти: діляться технічними деталями та міркуваннями. Учасника нашої групи, Андрія Ландо (студента московського Фізтеха), запрошено з доповіддю на конференцію DREAM. Другий раунд триватиме до початку 2017 року, і ми розраховуємо, що наші напрацювання стануть у нагоді майбутнім лідерам.

XX 2 СТОЛІТТЯ: Розкажіть про машинне навчання. Чому для вашої роботи був потрібен спеціаліст у цій галузі?

Григорій: Кількість доступних даних у біології величезна і продовжує зростати. Охопити їх усе розумом однієї людини неможливо, для групи людей дуже важко. На допомогу приходять комп'ютери.

Якщо одна людина здатна пам'ятати 3-5 змінних, які стосуються завдання, то комп'ютер здатний одночасно працювати з сотнями і тисячами змінних, ще й враховуючи взаємодії між ними. А вже для 5 змінних є 10 попарних комбінацій, зі збільшенням числа змінних кількість комбінацій зростає квадратично, плюс є ще складніші поєднання з трьох, чотирьох і більше факторів, так що навіть з п'ятьма змінними людині працювати вже важко.

Додаткових труднощів додають кількість та обсяги доступних даних. Переглянути сотні тисяч та мільйони геномних інтервалів людині неможливо, потрібно сильно скорочувати обсяг інформації, залишаючи якісь сумарні статистики та іншу агреговану інформацію. І цевже півдороги до машинного навчання, статистика дуже тісно пов'язана з областю машинного навчання, а вигадування правильного способу агрегувати дані вже по суті є діяльністю з «вигадування» ознак, що підходять для вирішення завдання (feature engineering) — це найважливіший елемент класичного машинного навчання (на противагу глибокому навчанню, deep learning, яке значною мірою може бути позбавлене цього кроку).

У цьому ми обмежилися класичним машинним навчанням. Для повноцінних експериментів з глибоким навчанням у нас вже не вистачило часу та обчислювальних ресурсів, але попередні експерименти показали, що цей підхід розумний і дає обнадійливі результати, в майбутньому ми очікуємо серйозних проривів.

Загалом у найближчі роки та десятиліття найбільш помітні зміни, що відчутно впливають на якість нашого життя, відбудуться саме в біології та медицині. Там вже накопичено величезну кількість даних, а найближчими роками їх накопичиться ще на порядки більше — і за рахунок більшого поширення секвенування, і за рахунок більшої цифровізації всього нашого життя (рух Quantified Self є найбільш очевидним прикладом, сюди ж можна віднести і електронні медичні. картки). Потенціал для отримання користі з усіх цих даних величезний, і застосування машинного навчання для цього буде потребою.

XX 2 СТОЛІТТЯ: У той час, поки проводяться такі важливі конкурси, суспільство виявляється у владі страхів з приводу тих же ГМО. З чим це може бути пов'язано принаймні в нашій країні?

Всеволод: На мою думку, проблема ГМО — багато в чому наведена ЗМІ.

XX 2 СТОЛІТТЯ: Я згадала страх перед ГМО — а, може, ви назвете інші помилки, які небезпечні для розвитку науки?

Іван: Слабкий зв'язок фундаментальної науки з суспільством грає їй на руку: від оман сильніше страждає прикладна наука, інновації, спроби впровадження нових технологій.

Водночас на хвилі «інновацій» та «впроваджуваності» маскується первинна мета фундаментальної науки — розширювати сферу об'єктивних знань про будову світу. Добре, коли результати наукової роботи виходять за межі профільних журналів і знаходять застосування в житті, але очікування від наукових досліджень негайної практичної корисності — найнебезпечніша помилка.