Петр Харченко — один из ведущих специалистов в области транскриптомных исследований. Исследователь получил степень PhD в области биофизики в Гарвардском университете, где работал под руководством Джорджа Черча (George Church), известного генетика и молекулярного инженера, руководителя проекта Personal Genome и популяризатора науки. Сегодня Петр Харченко возглавляет лабораторию в Медицинской школе Гарварда. В декабре ученый выступил с открытой лекцией в Университете ИТМО. А в интервью ITMO.NEWS он рассказал, как вычисления и статистические методы позволяют узнать больше о работе клеток и чем именно такая работа может помочь диагностике заболеваний.
Говоря об исследованиях, которые проводит ваша лаборатория, вы отметили, что вы занимаетесь созданием вычислительных систем для исследования клеток. Расскажите подробнее, как строится эта работа? И как, по сути, математика и построение моделей может привести нас к конечной цели многих из этих исследований, а именно — диагностике различных заболеваний?
Можно привести ряд примеров, как люди изучают заболевания, используя такие методы. И в течение лекции я попытался немного осветить этот вопрос. Но в целом хочу отметить, что мы решаем более общие задачи и пытаемся понять, как работают клетки.
Это очень сложные системы, состоящие из безумного количества компонентов. Например, даже на уровне генов только транскриптов (транскрипт — молекула РНК, образующаяся в результате транскрипции (гена или участка ДНК) — прим.ред.), которые мы замеряли, больше 10 000, это самые популярные. Еще больше разновидностей белков и так далее.
Всю эту систему, учитывая ее комбинаторную сложность, нам никогда не охватить. Поэтому цель нашего анализа — понять конкретные аспекты: комбинации каких-то молекул, комбинаторные состояния, подписи, которые важны. То есть определить то, что функционально отличает одни виды клеток от других – например, клетки, которые работают правильно и неправильно. Чтобы понять эту систему, нам нужно подходить к ней как к статистической задаче. Иначе это не сработает. Каждая индивидуальная клетка чем-то отлична от другой. В этих различиях есть много «шума», который необходимо игнорировать, выделяя при этом вещи, которые важны. Именно поэтому интерпретация биологии на клеточном уровне должна быть статистической.
Я не говорю, что такие модели уже существуют, на самом деле мы еще далеки от этого. Но способы измерения одиночных клеток приближают нас на шаг к такому пониманию. Мы видим именно шумное разнообразие состояния клеток и как раз из этого можно понять, что на самом деле важно.
Как это выглядит на практике?
Допустим, вам нужно понять, какой клеточный тип в мозге был наиболее подвержен изменениям при шизофрении. Типов нейронов в мозге как минимум сотня, поэтому докопаться до того подтипа, который был наиболее изменен, весьма нелегко. Что мы делаем? Мы замеряем комплексные состояния сотни тысяч индивидуальных клеток и анализом пытаемся понять, какой из подтипов этих нейронов изменился в большей степени.
Для этого, безусловно, нужно какое-то практическое решение, которое будет анализировать имеющуюся у нас массу данных — нормализовать, приоретизировать их, чтобы в конечном счете вывести статистически достоверные изменения, на которые можно смотреть дальше. Следующий, более детальный уровень: если вы смотрите на какую-то конкретную болезнь и видите там эти изменения, вам хочется понять, функционально через какие гены эти изменения возникли или какие сигналы могли приводить к изменениям. Сигналы, особенно внешние, здесь, наверное, наиболее интересны, поскольку прервать их и манипулировать ими значительно легче, чем внутренними состояниями клетки.
Таким образом, сейчас и мы, и другие группы пытаются разрабатывать методы, которые позволят нам сказать, куда смотреть дальше. В целом это можно назвать своего рода микроскопом, который дает очень богатую, красочную картину. Посмотрев на нее, можно попытаться догадаться, в каком направлении двигаться дальше. Но сам по себе метод, конечно, не дает исчерпывающий ответ и не является прямым методом диагностики и лечения.
Также вы отметили, что уделяете большое значение визуализации данных, чтобы в дальнейшем ваши модели могли эффективно использовать другие специалисты. Как выстроен этот процесс?
Могу рассказать, как это работало у нас на протяжении порядка пяти лет. Мы очень плотно сотрудничали с экспериментальными группами и планировали совместные эксперименты. При анализе данных мы берем на себя изначальную статистическую обработку, но потом, чтобы показать, что в этих данных самое значимое, самое статистически важное, необходимо это визуализировать.
Визуализировать результаты, полученные по итогам анализа такого количества клеток, конечно, нелегко. Поэтому для этого нам приходилось писать специальные программы, чтобы биологи и даже мы сами без особых трудов могли понять, где при болезни конкретно происходят какие-то изменения. Эта работа занимает довольно много времени, но при этом результат можно использовать снова и снова. И этими результатами теперь пользуемся не только мы, но и многие другие группы.
Елена Меньшикова, редакция новостного портала
Полный текст интервью читайте на ITMO.NEWS