1006022_530688873653064_1649197835_n

Текст Лилия Земнухова | 09.01.2014

В геноме человека содержится вся наследственная информация. В 1989 году, когда проект по его расшифровке только стартовал, считалось, что процесс продлится около сотни лет, но благодаря информационным технологиям всё вышло гораздо быстрее. В 2000 году геном человека был расшифрован на 90%.

Расшифровка – это определение последовательности ДНК и приведение их в текстовый вид. Геном человека состоит из трех миллиардов букв, а это терабайты данных. Теперь благодаря секвенированию, вся информация, которая хранится в одной клетке человека, стала доступна для анализа. На практике медицина сделала огромный шаг вперед в диагностике и лечении на ранних стадиях наследственных заболеваний и отклонений.

Биоинформатика – поле очень широкое, междисциплинарное. Она знаменует собой переход биологии от life science к data science. По сути, это работа с big data. Процесс идет, в основном, на пересечении computer science и молекулярной биологии. При том, что computer science достаточно сильно развита, биология в России сегодня не занимает лидирующие позиции в мире, поэтому биоинформатика развивается путем выстраивания новой экосистемы.

Эта академическая область довольно молодая и требует притока специалистов с сильным математическим бэкграундом. О том, что происходит с биоинформатикой в России, рассказал ее главный фасилитатор Николай Вяххи. Восстановить хронологию всей его деятельности и инициатив – дело непростое. По тэгам: лаборатория, курсы, институт, онлайн образование, летние школы и стажировки.

Кто делает науку

Основные игроки на пока еще не очень активном поле биоинформатики условно делятся на три типа: университетские кафедры, биотехнологические компании, научно-исследовательские институты и лаборатории.

Первую группу составляют кафедры и факультеты университетов. Один из самых старых – факультет биоинженерии и биоинформатики МГУ работает уже больше 10 лет. Но обороты и силу набирают другие (в основном, региональные) подразделения. Например, в прошлом году открылись кафедры биоинформатики на факультете вычислительной математики и кибернетики в Нижегородском государственном университете и Московском физико-техническом институте. Довольно долго работает группа (преимущественно биологи) по биоинформатике в Новосибирске. Там же разработано известное программное обеспечение UGENE.

Другим кластером заинтересованных в развитии области являются биотехнологические компании, которые сами практически не занимаются биоинформатикой, но становятся непосредственными потребителями продуктов разработчиков. Примеры таких компаний: Алкор Био, Биокад, Genotek. В сфере биотехнологий и фармацевтической индустрии используются, в основном, старые проверенные методы, биологические и лабораторные эксперименты.

Что касается третьей группы, то сейчас в этой области задействованы сразу несколько институтов. Например, в Москве работает отдел биоинформатики НИИ биомедицинской химии РАМН. С ним сотрудничает Институт биоорганической химии РАН, где также есть группы по биоинформатике. Существует Лаборатория биоинформатики в ИТМО.

Подобные научно-исследовательские отделы появляются и в коммерческих компаниях, например: BioLabs в JetBrains. И, все-таки, основная активность в отечественной биоинформатике совпала с волнами мегагрантов.

История с мегагрантами

В 2010 году, когда Министерство образования и науки запустило первые мегагранты, биоинформатика стала одним из перспективных направлений научной деятельности. Мегагранты взяли на себя функцию привлечения ведущих зарубежных ученых в российскую науку. По условиям гранта, ученые-руководители должны проводить в России 4 месяца в году за период действия программы (как правило, 2-3 года).

Подобные государственные инициативы должны способствовать поднятию «научной провинции» на уровень мирового центра. Ярким примером является Сингапур, который с недавнего времени стал одним из ведущих научных центров в области биоинформатики, только вот Гийому Бурку потребовалось потратить на это 7 лет. Каковы шансы России стать подобным центром?

YouTube Трейлер

Наиболее продуктивными стали те лаборатории, которые были открыты в результате запуска мегагрантов. В первой волне была создана группа биоинформатики в лаборатории эволюционной геномики факультета биоинженерии и биоинформатики МГУ. Во второй волне открылся Центр геномной биоинформатики им. Ф.Г.Добржанского. Его руководителем стал Стефан Джеймс О’Брайен, который раньше возглавлял Лабораторию геномного разнообразия в Национальном институте рака. В Центре применяют методы анализа данных и больше занимаются решением биологических проблем.

Одним из победителей первой волны мегагрантов стал профессор факультета компьютерных наук и инженерии Университета Калифорнии в Сан-Диего (США), один из руководителей научной группы вычислительной масс-спектрометрии Павел Певзнер. В соответствии с поддержанной заявкой, в Академическом университете (АУ) РАН появилась Лаборатория алгоритмической биологии, по сути, первая успешная лаборатория по биоинформатике.

Что же привлекает иностранных ученых приезжать в Россию? Из интервью с Павлом Певзнером: «В России есть несколько специалистов в области вычислительной биологии мирового уровня, таких, как Алексей Финкельштейн и Михаил Гельфанд, но их количество – невелико. С другой стороны, очень многие из ведущих биоинформатиков мира – выходцы из России».

2011_captain_america_007

Павел Певзнер

В 90-е годы отечественные ученые в области математики и вычислительных методов нашли свое место в зарубежных исследовательских центрах и лабораториях в сфере биоинформатики. Сейчас это очень быстро развивающаяся область, поэтому туда тянутся многие информатики: здесь легко сделать новые открытия, постоянные challenges – практическая computer science. В  Питере  лекция Певзнера в Computer Science Club собрала немало заинтересованных.

Как появилась лаборатория

Создание Лаборатории в Академическом университете в определенном смысле стало результатом удачного стечения обстоятельств.

Во-первых, знакомство с АУ. Летом-осенью 2010 года Николай Вяххи по приглашению Александра Смаля пришел в АУ вести студенческий семинар по Unix и скриптовым языкам. В этот же самый период стало известно о запуске программы мегагрантов, и АУ стал благодатной почвой для создания лаборатории по биоинформатике. Во-вторых, хорошее подспорье в виде талантливых математиков и программистов. Поскольку в России биоинформатики как таковой не было, но математика оставалась на высоком уровне, было легко набрать команду сильных программистов и алгоритмистов (в частности, олимпиадников), готовых разобраться в новой для себя области – биологии.

 «В Сан-Диего за таланты нужно бороться со всеми классными учеными, которые вокруг, а в Питере – приехал, и никакой конкуренции, все умные люди твои».

В-третьих, личные связи. В составе Лаборатории оказались, в основном, студенты и выпускники Математико-механического факультета СПбГУ (кстати, Николай – также выпускник Мат-Меха), а также золотой медалист по программированию из ИТМО Михаил Дворкин. Вместе они в первый месяц устраивали семинары, где вникали в суть той области биологии, с которой им потом предстояло работать. В составе участников появлялись и новые студенты, поскольку там проводились летние стажировки. Каждый в лаборатории брался разобраться в определенной области и представить ее остальным.

В результате, в благоприятной атмосфере Академического университета у молодых и талантливых алгоритмистов и математиков появилась возможность создавать новый качественный продукт и решать биоинформатические задачи.

О продуктах и сотрудничестве

Лаборатория преимущественно работала с данными из США, где академическая сфера биоинформатики уже развита и налажены механизмы сотрудничества академии и индустрии, таких как совместное решение задач, написание статей. И только в прошедшем году у наших лабораторий появились совместные проекты. Постепенно в России становится востребованным чтение генома.

Биоинформатика очень академична, и требует особого skillset. Переход из академии в индустрию происходит тогда, когда рискованные, экспериментальные предприятия начинают давать стабильный результат и становятся общепринятыми. Сейчас уже есть коммерческие группы (например, стартапы в Кремниевой долине), и начинают коммерциализироваться некоторые академические проекты. Разрабатываемое программное обеспечение находится в открытом доступе. А коллаборации начинаются тогда, когда биологи пробуют применять софт, созданный биоинформатиками.

Про исследование и про группу ученых Лаборатории узнают через статьи в таких журналах, как Bioinformatics, Journal of Computational Biology, или материалы конференций RECOMB, ALGO, ISMB.

Пример успешного сотрудничества – уникальный сборщик генома SPAdes, который создали в Лаборатории. «Мы сделали сборщик генома single cell – единственный в мире и лучший. Один из лучших. Это когда геном нужно собирать из маленьких кусочков: на входе большой файл и на выходе большой файл. Чтобы прочитать геном клетки, нужно миллион клеток. Их берут, разрезают на кусочки, читают по маленьким фрагментам, потом эти фрагменты складывают вместе. Но зачастую невозможно взять миллион клеток одного вида (бактерий). Берут одну клетку, ее искусственно размножают, амплифицируют. После этого ее читают, и получают очень сложные и неравномерные данные. И не было никаких алгоритмов, никакого софта. Single cell в России никто до сих пор не занимается, но по обычному секвенированию данные появляются».

Обучение биоинформатике

На базе кафедры математических и информационных технологий силами сотрудников Лаборатории стало полноценно развиваться направление магистратуры «Алгоритмическая биоинформатика», наряду с существующими в АУ программами по Computer Science и Software Engineering. Магистратура по биоинформатики включает в себя курсы по алгоритмическим вопросам анализа геномных и протеомных данных, программированию, а также лекции по молекулярной биологии, статистике, машинному обучению и другим более специализированным предметам.

Развитие системы образования в сфере биоинформатики продолжается, и реализуется в виде 5-летней программы в Лаборатории – аспирантура после магистратуры, по модели аспирантской программы по биоинформатике в Университете Калифорнии в Сан-Диего.

Незадолго до открытия Лаборатории в 2010 году при поддержке JetBrains были запущены курсы по биоинформатике для студентов АУ. Сначала это были открытые курсы по биологии и биоинформатике, но потом на них стал производиться набор. Кстати, BioLabs в JetBrains начали слушатели этих курсов.

YouTube Трейлер

Посмотреть видео на сайте Лекториума

Спустя три года курсы эволюционировали в Институт биоинформатики, который стал обеспечивать образование по биоинформатике для студентов АУ. Этому поспособствовали JetBrains и Game|Changers. В частности, в Game|Changers был представлен трек по биотехнологиям, и двое студентов Кирилл и Ярослав стали студентами и младшими кураторами Института. Помогают они основным кураторам – Екатерине  Чайкиной и Анне Черныш.

В Институте биоинформатики образовательная деятельность идет вместе с научной. Программа делится на «биоинформатику для информатиков» (как раньше на курсах) и «биоинформатику для биологов». Она актуальна для старших курсов, по результатам выдается сертификат о повышении квалификации. Более того, стала проводиться летняя школа.

Поскольку область новая и команда собирается молодая, здесь можно экспериментировать и в форматах образования, в том числе, онлайн-образования. Для этого было создано автоматическое тестирование (сборник задач) по биоинформатике Rosalind. Это платформа для изучения программирования и биоинформатики через решение задач. Другой образовательный проект – Stepic, который выходит уже за пределы биоинформатики. На его основе запустился курс на Сoursera.

Мы видим, как выстраивается экосистема биоинформатики. Это происходит не только за счет мега-грантов. Образовательные инициативы здесь не только для подготовки специалистов, они решают сразу две глобальные задачи. С одной стороны, биоинформатика в России развивается как самостоятельная научная и прикладная область на стыке академии и индустрии; с другой – становится платформой для международного сотрудничества.

YouTube Трейлер

Напомню, что мы только в начале пути.

 

Источник обложки