Михаил Гельфанд ::: Биография

ВЫЧИСЛИТЕЛЬНАЯ ГЕНОМИКА:
ОТ ПРОБИРКИ К КОМПЬЮТЕРУ И ОБРАТНО

Общим местом стало утверждение о том, что с развитием техники автоматического секвенирования*, олигонуклеотидных чипов**, масс-спектрометрии молекулярная биология из науки, развивающейся на основе гипотез (hypothesis driven), превращается в науку, развивающуюся на основе данных (data driven). Как и всякое общее место, это, по-видимому, не то чтобы совсем неверно, но слишком категорично. В то же время, действительно, доступность колоссальных объемов данных приводит к появлению совершенно новых подходов, основанных на компьютерном анализе. Они объединяются под названием биоинформатики или вычислительной молекулярной биологии***. При этом в первом случае подчеркиваются, скорее, служебные аспекты применения компьютеров - планирование и непосредственная поддержка эксперимента, создание баз данных и т.п., тогда как во втором случае акцент делается на получении нового биологического знания путем компьютерного анализа геномных последовательностей, данных об экспрессии генов, белковых структурах и белок-белковых взаимодействиях и т.п.
Действительно, объем банка секвенированных последовательностей ДНК растёт намного быстрее, чем количество экспериментальных статей (рис. 1). Ясно, что большинство генов и даже целых геномов никогда не будут исследованы экспериментально. Такая же лавинообразная ситуация возникает и во многих других областях молекулярной биологии и генетики. Таким образом, единственным выходом оказывается теоретический анализ накопленных сведений. При этом наиболее интересные или критические наблюдения потом впрямую проверяются в эксперименте. С другой стороны, глобальные эксперименты по необходимости включают вычислительный анализ - примеры будут приведены ниже. Наконец, некоторые области, например, теория молекулярной эволюции, вообще не предполагают эксперимента, который бы занял слишком большое - даже не историческое, а астрономическое - время. Тем не менее, и здесь удается делать и проверять нетривиальные утверждения.



Рис. 1. Количество статей по молекулярной биологии в библиографической базе данных PubMed и записей в банке нуклеотидных последовательностей GenBank, опубликованных в 1982-2001 годах.



Рис. 2. Один из канонов "Музыкального приношения" Баха. Бах записал его в такой форме - исполнители должны сами определить время и порядок вступления голосов.

Итак, какую же биологическую информацию можно извлечь из последовательности символов, представляющих геном или протеом, либо набора чисел, показывающих уровень экспрессии генов в разных условиях, либо из графа белок-белковых взаимодействий? Начнём с достаточно типичного примера: секвенирован полный геном какого-либо организма (для простоты - бактерии), и это единственное, что мы про эту бактерию знаем - никаких экспериментов с ней никогда не производилось. Что же мы можем про неё сказать?

Данная электронная версия книги "Биомедиале. Современное общество и геномная культура" не полна. Текст без пропусков может быть приобретен в печатной форме в виде антологии. Запрос направлять по адресу: 236000, Россия, г. Калининград, ул. К.Маркса, 18, по телефонам: Калининград (0112)216251, Санкт-Петербург (812)3885881, Москва (095)2867666. Электронный магазин: http://www.yantskaz.ru, Книга-почтой: тел.(0112)216251, все справки по электронному адресу: bulatov@ncca.koenig.ru. Полная ссылка на данную книгу: "Биомедиале. Современное общество и геномная культура". Составление и общая редакция Дмитрия Булатова. Калининград: КФ ГЦСИ, ФГУИПП «Янтарный сказ», 2004.

Для этого в распоряжении исследователя имеются два вида статистической информации. Во-первых, уже давно известно, что статистические свойства белок-кодирующих областей отличаются от свойств некодирующих областей. Среди этих отличий есть универсальные, которые связаны со структурой генетического кода (например, отсутствие стоп-кодонов в рамке считывания или слабая 3-периодичность), и геном-специфичные (например, частоты синонимичных кодонов). Зная, в чём состоят эти отличия, можно построить распознающее правило. Однако, для уверенной работы такого правила нужно применять его к достаточно протяженным участкам последовательности, иначе уровень статистического шума будет слишком велик. Поэтому, во-вторых, для уточнения границ белок-кодирующих областей используется анализ сигнальных последовательностей на этих границах. Отметим, что этот подход в каком-то смысле ближе к анализу биологических механизмов экспрессии генов, ибо именно эти последовательности направляют и регулируют работу белков, осуществляющих эту экспрессию. Наконец, ещё одним способом распознавания генов является сравнение геномной последовательности с уже известными белками.
Сравнительный метод является основой предсказания функции белков - следующего и, пожалуй, основного этапа анализа генома. Если в базе данных обнаруживается похожий белок с известной функцией, то можно сделать какие-то выводы и о функции рассматриваемого белка. При этом то, насколько детальным и уверенным будет сделанное предсказание, зависит от уровня сходства белков, от того, рассматриваются полные геномы или отдельные фрагменты, от того, схожи ли белки по всей длине или фрагментарно и т.п. Анализ большого количества белков, выполняющих одну и ту же функцию в разных организмах, позволяет выделить так называемые функциональные мотивы - участки, общие для таких белков и формирующие структурные ядра и реакционные центры. Такой анализ основывается на естественном предположении - то, что является эволюционно консервативным в последовательностях и структурах ДНК или белков, функционально важно.
В чуть более строгой формулировке это предположение выглядит так. Спонтанно происходящие мутации подвергаются воздействию отбора. Те из них, которые нарушают функцию белка, отсеиваются. Нейтральные же мутации могут зафиксироваться и передаться следующим поколениям. Тем самым, в белках из двух видов, происходящих от общего предка, накапливаются случайные изменения. Далее, ясно, что нейтральность мутации не является абсолютным понятием - мутация может лишь немного повлиять на функцию белка, или даже улучшить приспособленность белка (а значит, и организма) к изменившимся условиям, или, скажем, ухудшить функцию в одних условиях и улучшить - в других. Кроме того, одна мутация может скомпенсировать действие другой. Наконец, некоторые замены в данной позиции могут быть нейтральны (например, замены аминокислот с близкими физико-химическими свойствами), а другие - вредны. Тем самым, выровняв друг под другом родственные белки, мы видим, что степень однородности столбцов различна - некоторые позиции абсолютно инвариантны и никакие замены в них недопустимы, некоторые - консервативны, а некоторые - практически нейтральны и в них наблюдаются много различных аминокислот.

Существует множество баз данных белков, белковых выравниваний, функциональных мотивов. Для поиска родственных белков в банке данных и идентификации имеющихся в данном белке функциональных мотивов используются специальные программы, основанные на быстрых, но достаточно чувствительных алгоритмах.

Данная электронная версия книги "Биомедиале. Современное общество и геномная культура" не полна. Текст без пропусков может быть приобретен в печатной форме в виде антологии. Запрос направлять по адресу: 236000, Россия, г. Калининград, ул. К.Маркса, 18, по телефонам: Калининград (0112)216251, Санкт-Петербург (812)3885881, Москва (095)2867666. Электронный магазин: http://www.yantskaz.ru, Книга-почтой: тел.(0112)216251, все справки по электронному адресу: bulatov@ncca.koenig.ru. Полная ссылка на данную книгу: "Биомедиале. Современное общество и геномная культура". Составление и общая редакция Дмитрия Булатова. Калининград: КФ ГЦСИ, ФГУИПП «Янтарный сказ», 2004.

Дело в том, что любая специфическая функция откладывает отпечаток на статистические свойства аминокислотной последовательности.



Рис. 3. Фрагмент выравнивания факторов транскрипции из семейства LacI. Выделены инвариантные (*) и консервативные позиции.

Например, трансмембранные сегменты функционируют не в водном, а в липидном окружении - в мембране. Поэтому в них избегаются гидрофильные аминокислоты (как ясно из названия - предпочитающие взаимодействовать с водой) и предпочитаются гидрофобные (предпочитающие контакт с липидами).
Наконец, можно пытаться предсказывать пространственную структуру белка - подробнее эта область будет обсуждена ниже.
Итак, сравнительный анализ даёт возможность установить клеточную роль до двух третей белков, ещё примерно четверть белков оказываются охарактеризоваными частично: например, анализ мотивов может указать на общую биохимическую функцию белка; мы примерно знаем, какую реакцию катализирует данный фермент, но не можем уверенно предсказать его специфичность. У эукариот доля белков, которые могут быть охарактеризованы вычислительно, меньше, однако основные клеточные функции и здесь описываются достаточно полно.
Ядром такого описания является метаболическая реконструкция - восстановление полного репертуара химических реакций, происходящих в клетке. При этом на универсальной карте метаболических путей (графе, который отражает совокупность всех реакций, когда-либо наблюденных в живых системах; ясно, что этот граф тоже хранится в электронном виде как база данных) отмечаются те реакции, которые, согласно результатам сравнительного анализа, могут катализироваться белками, кодируемыми в данном геноме.
Далее производится детальный анализ полученной метаболической карты индивидуального организма, направленный на идентификацию пробелов и противоречий. В самом деле, есть некоторые естественные критерии адекватности построенной метаболической карты, самым простыми из которых является отсутствие тупиковых реакций - то есть реакций, продукты которых нигде больше не используются или для которых отсутствуют субстраты. Специальным и самым частым примером такой ситуации является пропуск в линейной цепочке реакций, в которой продукт очередной реакции является субстратом для следующей.
Обнаружение такого пробела означает, что нам не удалось идентифицировать ген, кодирующий соответствующий фермент. Это может означать, что критерии сходства были слишком строгими или что эту функция выполняет новый белок, не имеющий известных гомологов. В первом случае достаточно повторить поиск, несколько ослабив пороги. Во втором применяются более тонкие приемы геномного анализа.
Эти приемы основаны на анализе регуляции или расположения генов на хромосоме. В первом случае выделяются потенциальные регуляторные сигналы в ДНК, которые были бы общими для всех генов рассматриваемого метаболического пути. Такими регуляторными сигналами (операторами) являются участки связывания факторов транскрипции - специальных белков, которые реагируют на изменения во внешней среде или химическом составе клетки и в зависимости от этих изменений связываются с операторами, включая или выключая экспрессию генов. Изменениями, на которые реагируют факторы транскрипции, могут быть недостаток каких-либо необходимых веществ, тепловой или холодовой шок, скученность, появление во внешней среде каких-либо питательных веществ, попадание в организм хозяина (для патогенов) и т.п. Ясно, что при появлении какого-либо вещества во внешней среде включаются гены метаболического пути - транспорта и утилизации этого вещества, а при недостатке необходимого вещества внутри клетки - гены биосинтеза этого вещества либо, опять-таки, импорта его из внешней среды.



Рис. 4. Согласуясь с командами программы, в качестве которой выступает двойная спираль ДНК, клетка выстраивает из аминокислот сложнейшие последовательности белковых молекул, которые играют основную роль в ее жизни.



Рис. 5. Надежное предсказание, основывающееся на большом количестве независимых наблюдений, может быть достовернее иного эксперимента.

Ясно также, что естественно включать или выключать такие пути как единое целое - именно поэтому один и тот же сигнал регулирует все гены пути. Поэтому ген, соответствующий отсутствующему звену, также будет иметь похожий регуляторный участок. Итак, выделив сигнал и построив распознающее правило, мы затем просматриваем геном и выделяем все гены, имеющие удовлетворяющие правилу последовательности: искомый ген находится среди них. Проблема здесь в том, что построить достаточно надежное (специфичное) распознающее правило обычно не удается, и поэтому выделяется слишком много (десятки) потенциально регулируемых генов, из которых лишь единицы имеют отношение к делу.

Данная электронная версия книги "Биомедиале. Современное общество и геномная культура" не полна. Текст без пропусков может быть приобретен в печатной форме в виде антологии. Запрос направлять по адресу: 236000, Россия, г. Калининград, ул. К.Маркса, 18, по телефонам: Калининград (0112)216251, Санкт-Петербург (812)3885881, Москва (095)2867666. Электронный магазин: http://www.yantskaz.ru, Книга-почтой: тел.(0112)216251, все справки по электронному адресу: bulatov@ncca.koenig.ru. Полная ссылка на данную книгу: "Биомедиале. Современное общество и геномная культура". Составление и общая редакция Дмитрия Булатова. Калининград: КФ ГЦСИ, ФГУИПП «Янтарный сказ», 2004.

Для этого имеются естественные функциональные и эволюционные причины (в частности, так удобнее организовать совместную регуляцию), однако, во-первых, эти причины достаточно слабы и поэтому ко-локализация функционально связанных генов - тенденция, а не универсальное правило, а во-вторых, поскольку хромосома линейна, гены могут находиться рядом и по случайным причинам. Анализируя один геном или несколько сильно родственных геномов (в которых порядок генов на хромосоме несильно различается), невозможно отличить случайное со-положение от значимого. Однако, если два гена расположены рядом в значительном числе неродственных геномов, появляются серьезные основания искать функциональную связь между ними.
Итак, при наличии пробелов в метаболической реконструкции можно искать кандидатов на заполнение этих пробелов, используя методы сравнительной геномики. Заметим, что такой анализ не сводится к простому распространению уже известных данных на гены малоизученных организмов - сравнительный анализ дает возможность предсказывать функции новых классов белков, новые регуляторные механизмы и т.п. Разумеется, эти предсказания должны затем проверяться экспериментально. В то же время, надежное предсказание, основывающееся на большом количестве независимых наблюдений, может быть достовернее иного эксперимента.



Рис. 6. Филогенетическое дерево транспортеров аргинина (arg), гистидина (his) и глутамина (glu). Специфичность, где известна, показана в скобках. Курсивом выделены имена генов, регулируемых аргининовым репрессором. BS_yqiX - транспортёр сенной палочки (Bacillus subtilis), специфичность которого была предсказана путём анализа регуляции, а потом подтверждена экспериментально.

Приведем несколько примеров из нашей практики. При анализе генов, кодирующих ферменты из метаболического пути синтеза рибофлавина (витамина В2) был обнаружен новый регуляторный элемент, присутствующий в геномах многих различных бактерий, причем в данном случае регуляторная последовательность была настолько консервативна, что могла быть распознана совершенно уверенно. В большинстве геномов это элемент присутствовал только в одной копии, непосредственно перед группой генов рибофлавинового биосинтеза. Однако, в ряде геномов этот же элемент был найден перед неохарактеризованным геном ypaA. Белок, кодируемый этим геном, не имел известных гомологов, и, таким образом, его функция не могла быть предсказана. Более подробный анализ показал наличие в этом белке шести потенциальных трансмембранных сегментов, что характерно для транспортеров. Итак, был обнаружен потенциальный транспортер, регулируемый совместно с генами рибофлавинового синтеза и, тем самым, по-видимому, отвечающий за импорт рибофлавина либо какого-то его предшественника. Далее, оказалось, что в ряде геномов отсутствуют гены рибофлавинового синтеза, однако имеется ген ypaA. После этого стало ясно, что этот белок транспортирует именно рибофлавин. Через некоторое время оба предсказания - регуляция и специфичность - были подтверждены экспериментально. Более того, анализ структуры регуляторного элемента позволил даже предсказать уникальный механизм, по которому осуществляется регуляция, однако более подробное обсуждение этого уже выходит за рамки данной статьи.
Вообще, многие новые результаты, полученные с использованием тонких методов вычислительного геномного анализа, касаются как раз специфичности транспортеров. Дело в том, что транспортеры часто трудны для экспериментальной работы и поэтому они в целом изучены хуже, чем другие классы белков - ферменты или, скажем, регуляторные белки. Кроме того, специфичность транспортеров к переносимым ими веществам очень нестабильна с эволюционной точки зрения и поэтому простой белковый анализ не дает возможности делать уверенные и детальные предсказания. Ещё одним примером может быть анализ семейства транспортеров, осуществляющих импорт в бактериальную клетку аминокислот аргинина, гистидина и глутамина. Все белки этого семейства очень похожи и никакой группировки по сходству, которая совпадала бы с естественным разделением по функции - для тех немногих транспортеров, специфичность которых известна, - получить не удается. Однако удалось построить распознающее правило для сигналов, регулирующих экспрессию генов метаболического пути биосинтеза аргинина, причем такие сигналы различны в разных геномах. И вот после этого оказалось, что экспрессия лишь части белков этого семейства транспортеров регулируется потенциальными сигналами указанного вида. Тем самым, только анализ регуляции позволил достаточно точно предсказать специфичность транспортеров. И в этом случае предсказание было подтверждено в независимом эксперименте.

Однако в ряде областей вычислительной геномики экспериментальные подтверждения невозможны в принципе. Пожалуй, основной из таких областей является теория молекулярной эволюции. Разумеется, первые работы в этой области появились задолго до начала массового секвенирования последовательностей ДНК ещё в шестидесятых годах, однако только с появлением полных геномов стало возможным ставить действительно фундаментальные вопросы. Ясно, что временные масштабы, на которых происходят эволюционные события, несопоставимы с временем эксперимента.

Данная электронная версия книги "Биомедиале. Современное общество и геномная культура" не полна. Текст без пропусков может быть приобретен в печатной форме в виде антологии. Запрос направлять по адресу: 236000, Россия, г. Калининград, ул. К.Маркса, 18, по телефонам: Калининград (0112)216251, Санкт-Петербург (812)3885881, Москва (095)2867666. Электронный магазин: http://www.yantskaz.ru, Книга-почтой: тел.(0112)216251, все справки по электронному адресу: bulatov@ncca.koenig.ru. Полная ссылка на данную книгу: "Биомедиале. Современное общество и геномная культура". Составление и общая редакция Дмитрия Булатова. Калининград: КФ ГЦСИ, ФГУИПП «Янтарный сказ», 2004.

Однако, скорость накопления случайных мутаций не равномерна. В частности, она зависит от того, насколько важны эти белки для организма. Так, белки, участвующие в главных информационных процессах: репликации, транскрипции и трансляции - в среднем более консервативны, чем ферменты, а последние - более консервативны, чем белки внешней мембраны. Вторым осложнением является то, что белки расходятся не только в результате видообразования, но и вследствие внутригеномных дупликаций. При этом в геноме появляются две копии белка, и, если обе они существуют достаточно долгое время, их функции начинают постепенно расходиться (в частности, именно такова история семейства аргининовых-гистидиновых-глютаминовых транспортеров, упомянутого выше). Тем самым, анализ отдельных белковых семейств не даёт возможности делать выводы о родственных связях между организмами, и лишь комплексный анализ целых геномов и сопоставление данных, полученных на отдельных семействах, позволяет делать сколько-нибудь надежные реконструкции деревьев эволюции видов и таким образом восстанавливать историю жизни на Земле.




Рис. 7. Наука очень быстро проходит путь от кажущихся фантастическими предположений ученых к открытиям и техническим решениям, выходящим за стены лабораторий и становящимся частью повседневной жизни.

Выше было сказано, что характерные эволюционные времена несопоставимы с экспериментальными. На самом деле, есть ситуации, когда это не совсем верно. Речь идёт об эволюции вирусов. Дело в том, что процесс репликации у многих вирусов несовершенен, и поэтому мутации происходят часто; кроме того, у вирусов ослаблено эволюционное давление на белки, особенно белки оболочки - более того, изменчивость белков оболочки является приспособительным фактором, поскольку позволяет избегать уничтожения иммунной системой хозяина. Поэтому эволюцию вирусов можно наблюдать в лаборатории (при этом исследуются фаги - вирусы бактерий) или же - в случае вирусов человека - в популяции хозяина. В частности, предметом такого рассмотрения являются эпидемии гриппа - в отдаленных местах, например, в Южной Америке оказывается возможным проследить ход эпидемии от портов и крупных городов вглубь материка. Ещё более наглядным было так называемое "дело дантиста" - американского зубного врача, который заразил СПИДом несколько своих пациентов. В этом случае удалось проследить всю историю заражений, и она совпала с реконструированным деревом вариантов вируса****.



Рис. 8. Успешное окончание первой части ПГЧ - завершение описания нуклеотидных последовательностей, образующих геном, - было объявлено в июне 2000 года. На следующей стадии ученые должны открыть, локализовать и дать функциональное описание всех генов человека.



Рис. 9. Гены, уровень экспрессии которых зависит от суточного ритма. По горизонтальной оси отложено время в часах, каждая горизонтальная линейка соответствует одному гену, относительный уровень экспрессии показан тоном (низкий - светлым, высокий - темным).

В каком-то смысле, аналогичны этим исследования истории человеческих популяций. Ранние работы такого рода основывались на анализе частот групп крови и тому подобных генетических маркеров у разных народов. В настоящее время проводятся работы в рамках большого международного проекта по анализу так называемых точечных полиморфзмов (SNP) - позиций в геноме, в которых существуют различия между индивидуальными геномами, причём такие, что неосновные варианты всё же достаточно часты (не менее 1%). Иными словами, проект направлен на выделение таких позиций, в которых минимум 1% всех людей имеет вариант, отличный от большинства (в этой связи стоит указать, что в среднем геномы двух людей отличаются в 1 позиции из 1000, а геномы человека и его ближайшего родственника - шимпанзе - в 1 позиции из 100). Практическая польза от этого проекта состоит в том, что такие полиморфизмы используются для картирования генов различных болезней или предрасположенности к болезням: они служат в каком-то смысле дорожными столбами в геноме, относительно которых можно определять положение гена. С другой стороны, удается выделять комбинации полиморфизмов (гаплотипы), специфичные для тех или иных этнических общностей. Более того, поскольку некоторые части генома передаются чисто по женской (митохондриальный геном) или чисто по мужской (Y хромосома) линии, можно строить по отдельности мужскую и женскую истории.
До сих пор мы рассматривали геном как статическое образование - некий текст, в котором записан набор инструкций по функционированию клетки. Современные методы молекулярной биологии дают возможность осуществлять массовый анализ экспрессии генов в ответ на те или иные воздействия. Для этого используются так называемые олигонуклеотидные чипы. Один такой чип позволяет измерить концентрацию мРНК, соответствующих нескольким тысячам генов, то есть всех генов бактерии, или дрожжей, либо заметной доли генов человека.
Тем самым, анализируя клетки, выросшие в различных условия, и сравнивая уровень экспрессии каждого гена, можно выделить наборы генов, экспрессия которых увеличивается или уменьшается в зависимости от этих условий. Более того, можно отслеживать ответ на изменение условий, или, скажем, измерять уровень экспрессии на разных стадиях клеточного цикла, либо, у многоклеточных, в различных тканях. Наконец, можно сравнивать экспрессию генов в различных мутантных штаммах (вариантах бактериальных клеток).

Составив выборку генов, одинаковым образом реагирующих на какое-либо изменение условий, мы можем пытаться искать регуляторные сигналы, управляющие работой этих генов. Исследуя мутантные штаммы с поврежденными генами факторов транскрипции, можно пытаться выделять регуляторные каскады, а сравнивая ответ генома на добавление тех или иных веществ в среду с метаболической реконструкцией, можно пытаться анализировать взаимозависимость между отдельными метаболическими путями, что крайне важно для биотехнологии - создания штаммов, производящих те или иные вещества.
Другое важное применение экспрессионных чипов - в медицине, в особенности в онкологии. Дело в том, что многие варианты рака крайне трудноразличимы на клиническом или морфологическом уровне (структуры опухоли, внешнего вида клеток), хотя и отличаются на молекулярном уровне, так как вызываются повреждениями разных клеточных механизмов.

Данная электронная версия книги "Биомедиале. Современное общество и геномная культура" не полна. Текст без пропусков может быть приобретен в печатной форме в виде антологии. Запрос направлять по адресу: 236000, Россия, г. Калининград, ул. К.Маркса, 18, по телефонам: Калининград (0112)216251, Санкт-Петербург (812)3885881, Москва (095)2867666. Электронный магазин: http://www.yantskaz.ru, Книга-почтой: тел.(0112)216251, все справки по электронному адресу: bulatov@ncca.koenig.ru. Полная ссылка на данную книгу: "Биомедиале. Современное общество и геномная культура". Составление и общая редакция Дмитрия Булатова. Калининград: КФ ГЦСИ, ФГУИПП «Янтарный сказ», 2004.

Далее дифференциальный диагноз ставится при помощи одного относительно недорого анализа. Кроме того, такие исследования имеют и чисто научное значение (насколько можно говорить о чистой науке применительно к проблеме рака): исследуя специфическую экспрессию генов, можно пытаться понять молекулярные механизмы злокачественного перерождения клеток.
Однако использование олигонуклеотидных чипов позволяет измерять концентрацию мРНК, но не белков. Это не одно и то же, поскольку уровень трансляции разных мРНК может быть различен и, более того, существуют гены, регулируемые на этапе трансляции. Тем самым, концентрация белков не пропорциональна концентрации мРНК. В последние годы появляются методы, которые потенциально позволят измерять впрямую концентрации белков. Эти методы основаны на масс-спектрометрии - измерении молекулярных масс фрагментов белков. Эксперименты по масс-спектрометрии, пожалуй, в наибольшей степени зависят от компьютерной поддержки - от записи и обработки первичных данных до специализированных алгоритмов поиска по банку данных. Последняя задача состоит в том, чтобы по данным масс-спектрометрии, то есть по массам фрагментов белка, идентифицировать сам белок. Среди других методов протеомики следует упомянуть интенсивно развивающиеся методы, например, технику двойных гибридов (two-hybrid), которые дают возможность составлять карту белок-белковых взаимодействий, как постоянных - в составе сложных белковых комплексов, структурных и ферментативных, - так и временных, например, путей передачи сигнала.
Закончим обсуждение проблем протеомики кругом задач, связанных с предсказанием пространственной структуры. Самой традиционной постановкой является предсказание стандартных элементов пространственной структуры по последовательности белка. Предсказать пространственную структуру целиком без дополнительных данных при теперешнем уровне наших знаний невозможно, и в такой формулировке задача даже не ставится. В то же время, было замечено, что большинство известных пространственных структур сводятся к нескольким десяткам стандартных архитектур. Тем самым, задача предсказания сводится к отнесению белка с известной последовательностью к одному из структурных классов (задача пронизывания), либо указание, что белок может представлять новый класс. В последнем случае белок представляет особый интерес и исследуется экспериментально, методами рентгеноструктурного анализа. Более того, разрабатывается ряд проектов по целенаправленному заполнению пробелов в списке структурных классов. Наконец, упомянем смежную проблему исследования взаимодействия белков и малых молекул (докинг). Она крайне важна, поскольку именно в этих терминах формулируется задача поиска лекарств - ингибиторов или стимуляторов тех или иных белков: бактериальных, если речь идёт об антибиотиках, либо человеческих, если предполагается каким-то образом модулировать их активность.
Итак, мы по необходимости кратко рассмотрели основные методы современной геномики и протеомики. Многие области были только названы, хотя мы во всех случаях пытались описать, какого рода данные получаются из тех или иных экспериментов и как эти данные обрабатываются. Более устоявшиеся области, особенно те, в которых можно провести какие-то аналогии с другими областями, особенно лингвистикой, были рассмотрены чуть подробнее, хотя мы не пытались проводить прямых параллелей.
И в заключение - об эпиграфе. Это один из канонов из "Музыкального приношения" Баха. Бах записал его именно в такой форме - исполнители должны сами определить время и порядок вступления голосов. В такой же ситуации находятся исследователи генома - природного текста, смысл которого мы пытаемся найти.

* Термины и определения см. Глоссарий. (Прим. ред.)
** Подробнее см. статью И. Григорян и Вс. Макеева в настоящем издании. (Прим. ред.)
*** В настоящее время опубликовано несколько учебников по вычислительной биологии. Общий обзор для разработчиков содержится в [Clote, P. and Blackofen, R. Computational Molecular Biology, Wiley, 2000], алгоритмические аспекты биоинформатики описаны в [Gusfield, D. Algorithms on Strings, Trees, and Sequences: Computer Science and Computational Biology, Cambridge University Press, 1997], а введение, отражающее пользовательскую точку зрения, дано в [Baxevanis, A.D. and Ouellette, B.F.F. (eds.) Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, Second Edition, Wiley, 2001] и [Mount, D.W. Bioinformatics: Sequence and Genome Analysis, Cold Spring Harbor Laboratory, 2001]. Популярное введение в биоинформатику предложено в "теме номера" журнала "Компьютерра" №36 (413) за 2001 год, менее популярное введение и обзор тенденций можно найти в статье [Гельфанд, М.С., Миронов А.А., "Вычислительная биология на рубеже десятилетий", Молекулярная биология (1999) 33: 969-984]. Весьма поучительное сопоставление экспериментальных ошибок и ошибок вычислительного анализа содержится в [Iyer, L.M., Aravind, L., Bork, P., Hofmann, K., Mushegian, A.R., Zhulin, I.B., Koonin, E.V., "Quod erat demonstrandum? The mystery of experimental validation of apparently erroneous computational analyses of protein sequences." Genome Biology 2/12/research/0051, 2001], см. также [Galperin, M.Y., Koonin, E.V. "Sources of systematic error in functional annotation of genomes: domain rearrangement, non-orthologous gene displacement and operon disruption." In Silico Biology 1: 55-67. 1998].
**** "Дело дантиста" - первое применение эволюционной теории в суде - рассмотрено в [C.-Y.Ou et al., "Molecular epidemiology of HIV transmission in a dental practice," Science 256: 1165-1171, 1992], а современная проблема изучения штаммов бациллы сибирской язвы - в [Cummings, C.A. and Relman, D.A. "Molecular forensics - cross-examining pathogens," Science 296: 1976-1979, 2002].



НА ГЛАВНУЮ    ENGLISH

Как заказать эту книгу

ВЫХОДНЫЕ ДАННЫЕ

СОДЕРЖАНИЕ:

I. МАСТЕРСКАЯ: наука и технологии

Светлана Боринская. Геномика и биотехнология: наука начала третьего тысячелетия.

Михаил Гельфанд. Вычислительная геномика: от пробирки к компьютеру и обратно.

Ирина Григорян, Всеволод Макеев. Биочипы как пример индустриальной биологии.

Валерий Шумаков, Александр Тоневицкий. Ксенотрансплантация: научные и этические проблемы.

Абрам Йойрыш. Правовые аспекты генной инженерии.

Павел Тищенко. Геномика: новый тип науки в новой культурной ситуации.
II. ФОРУМ: общество и геномная культура

Юджин Такер. Комната ожидания Дарвина.

Critical Art Ensemble. Биотехнология в общественном сознании: время обещаний.

SubRosa. Секс и гендер в век биотехнологий.

Рикардо Домингес. Неизбежность торжества нанотехнологий 3.0: фрагменты постбиотехнологической эры.

Биргит Рихард. Клоны и двойники. Тиражирование и воспроизведение "я" в кинообразах.

Свен Дрюль. Филогенез химер: от античности до наших дней.
III. ТОПОЛОГИЯ: от биополитики до биоэстетики

Борис Гройс. Искусство в эпоху биополитики.

Стивен Уилсон. Искусство и наука как культурные действия.

Мелентий Пандиловски. О феноменологии сознания, технологии и генетической культуре.

Рой Эскотт. Интерактивное искусство: на пороге постбиологической культуры.
IV. КОД ВЗАИМОДЕЙСТВИЯ: искусственная жизнь

Марк Бедо. Исследование гипертворчества человека с помощью технологии искусственной жизни.

Луи Бек. Искусственная жизнь под напряжением.

Алан Дорин. Виртуальные животные в виртуальных средах.

Криста Зоммерер, Лоран Миньоно. Использование принципов искусственной жизни в интерактивных компьютерных инсталляциях.
V. ТЕАТР НОВОГО ВРЕМЕНИ: ars genetica

Джордж Гессерт. История искусства с привлечением ДНК.

Кетлин Роджерс. Образ материи.

Брендон Балланже. Источники искусственного отбора.

Марта ди Минизиш. Лаборатория как мастерская художника.

Адам Заретски. Зоо-арт ломовой лошади и экзамен по биоэтике.
VI. ТЕХНОЛОГИЯ ОБРАЗА: ars chimaera

Джо Дэвис. Монстры, карты, сигналы и коды.

Дэвид Кремерс. Парадокс Дельбрюка. Версия 3.

Эдуардо Кац. Зеленый флуоресцирующий кролик.

Дмитрий Булатов. Искусство химер.

Валерий Подорога. Рене Декарт и Ars Chimaera.
VII. МЕТАБОЛА: искусство и культура ткани

Йонат Цурр. Усложненные понятия о жизни: "полуживые" существа.

Орон Каттс. Фрагменты конструирования жизни - влажная палитра тканевой инженерии.
VIII. P.S.

Дмитрий Пригов. Мы о том, чего сказать нельзя.

Галерея влажного искусства

Биографии

Библиография

Веблиография

Глоссарий


© кф гцси. евгений паламарчук | Jaybe.ru