Добавить в цитаты Настройки чтения

Страница 16 из 25

Структуру эволюционного процесса определяют не только консервативные последовательности. На протяжении чрезвычайно длительных эволюционных периодов не просто сохраняется сходство последовательностей РНК и белков, но и гены имеют свойство сохранять свою уникальность. Иными словами, большинство генов развиваются как ортологичные линии, с редкими случаями дупликации (Koonin, 2005). Устойчивость ортологии генов становится очевидной благодаря простой процедуре, широко применяемой в сравнительной геномике и позволяющей эффективно выявлять ортологичные наборы генов. При этом ортологи обнаруживаются как «наилучшие совпадения при двунаправленном сравнении» (bidirectional best hits): все закодированные в геноме белковые последовательности сравниваются со всеми белками, закодированными в другом геноме, a затем процедура повторяется в обратном направлении (Tatusov et al., 1997). Пары генов, дающие наилучшие совпадения (те, которые демонстрируют наибольшее сходство последовательностей) при обоих направлениях сравнения, считаются возможными ортологами; нетрудно применить эту процедуру к нескольким видам путем совмещения треугольников двунаправленных совпадений, имеющих общую сторону (см. табл. 3–1). Примечательно, что такой прямолинейный подход в большинстве случаев хорошо срабатывает: к примеру, порядка 70 процентов генов организмов, разделенных приблизительно 100 миллионами лет эволюции, таких как люди и мыши, легко идентифицируются как ортологи при помощи описанной процедуры (Wolf et al., 2009). Если применить простую модификацию этого алгоритма и включить дупликации генов, характерных для одной линии наследования (дупликации, образовавшиеся после расхождения сравниваемых видов), такой подход позволяет идентифицировать наборы ортологов (известных как кластеры ортологичных генов, КОГ) во многих геномах, в том числе столь удаленных друг от друга, как археи и бактерии – представители двух доменов прокариот (см. гл. 5). Более точные и мощные способы обнаружения ортологов требуют подробного анализа филогенетических деревьев (см. табл. 3–1); впрочем, результаты такого анализа обычно близки к тем, что дают более простые методы, основанные только на сравнении последовательностей. Разумеется, для части генов история дупликаций и потерь настолько сложна, что обнаружить КОГ трудно, поэтому они становятся нечеткими кластерами с неопределенной внутренней структурой. По счастью, этих «трудных» генов в каждом геноме относительно немного.

Таблица 3–1. Классификация гомологичных связей генов: ортологи, паралоги и методы их определения.

Эволюционные связи генов:

• Гомология: гены, имеющие общее происхождение.

• Ортология: гомологичные гены, эволюционировавшие путем видообразования.

• Паралогия: гомологичные гены, эволюционировавшие путем дупликации.

• Ксенология: гомологичные гены, имитирующие ортологи, но образовавшиеся в результате горизонтального переноса гена из другой ветви.

• Паралогия, внутренняя и внешняя: паралогичные гены, возникшие в результате видоспецифической дупликации после (внутренняя) или до (внешняя) определенного события видообразования.

• Со-ортология: внутренне-паралогичные гены, совокупно ортологичные по отношению к генам другой ветви (из-за их общего происхождения в ходе видообразования).

• Ортологичная группа (КОГ): совокупность всех потомков данного предкового гена.





Изначально не вполне складная аббревиатура КОГ относилась к кластерам ортологичных групп (белков), чтобы обозначать соортологичные связи, вызванные дупликацией генов (см. табл. 3–1; Tatusov et al., 1997). Сейчас я предпочитаю расшифровывать КОГ просто как кластеры ортологичных генов, однако само по себе это сокращение остается чрезвычайно удобным для обозначения фундаментального свойства таких кластеров. Эта трехбуквенная аббревиатура широко используется в литературе, и я использую ее в данной книге в качестве сокращенного названия наборов ортологичных генов. Обычно каждый секвенированный геном более чем на 70 процентов состоит из генов, относящихся к КОГ (см. рис. 3–4). В эволюции генома, к которой мы обращаемся в этой книге неоднократно, эта величина представляется важной. Таким образом, существенное большинство генов в каждом геноме весьма консервативно, то есть представлено ортологами во многих далеко отстоящих друг от друга организмах.

Мультидоменные белки и сложность связей ортологов

В этой главе основной упор делается на рассмотрении взаимосвязи между стабильностью и изменчивостью в ходе эволюции. В настоящем разделе мы сосредоточим внимание на отдельных элементах белковой структуры, доменах и мультидоменной организации многих белков (Doolittle, 1995). Таким образом, мы заглянем по другую сторону генной эволюции, которая противостоит стабильности ортологичных линий, отмеченной ранее, и дополняет ее. Домен – центральное понятие в исследовании белков, и определение ему можно дать по меньшей мере на двух уровнях. По первому определению, домены представляют собой компактные элементы белковой структуры с характерными размерами около ста аминокислотных остатков. В этой главе нас интересуют родственные связи геномов, в частности ортология, поэтому необходимости рассматривать структурные элементы нет. Второе определение доменов относится к компактным единицам эволюции, которые могут охватывать один или несколько структурных элементов; здесь нас интересуют именно такие эволюционные домены.

Рис. 3–4. Уровень покрытия КОГ в геномах архей и бактерий. Полные наборы белков в 20 отобранных геномах бактерий (показаны черным) и 10 геномах архей (показаны серым), отнесенные к КОГ (Tatusov et al., 2003). Применялся метод COGNITOR (Makarova et al., 2007b)

Рис. 3–5. Разнообразие мультидоменной архитектуры гомологичных белков. На схеме сравнивается доменная архитектура двух паралогичных наборов древних и функционально незаменимых для всех организмов ортологичных белков: тирозил-тРНК синтетазы (TyrRS) и триптофанил-тРНК синтетазы (TrpRS). Каждый домен обозначен своей собственной геометрической формой (по Wolf et al., 1999a).

Мультидоменные белки обнаружены у всех форм жизни, но особенно характерны для сложных многоклеточных эукариот (Koonin et al., 2000a; Koonin et al., 2000b). Доменная архитектура этих белков демонстрирует различную степень эволюционной пластичности. Изменчивость особенно выражена у белковых архитектур, включающих так называемые «неразборчивые домены» (promiscuous domains), имеющие склонность к слиянию с разнообразными другими доменами (Basu et al., 2009). Разнообразная мультидоменная архитектура белков запутывает понятие ортологии. Считается, что в ходе долгой эволюции ортологичные гены сохраняют свою уникальность, в том числе функциональную (имеют одну и ту же эволюционную историю). Однако это правило нарушается в тех случаях, когда гены, казалось бы подпадающие под определение ортологии (см. табл. 3–1), меняют доменную архитектуру (см. рис. 3–5): в этих случаях лишь части соответствующих белков в разных организмах имеют одну и ту же эволюционную историю и выполняют одни и те же функции (хотя второе и не может быть гарантировано, поскольку взаимодействие доменов вполне может иметь существенные функциональные последствия).

Контраст между эволюционной пластичностью генома и стабильностью индивидуальных генов

Мы видели, что большинство генов в каждом геноме весьма консервативно: гомологи этих генов – чаще всего легко определяемые ортологи – обнаружены у организмов, эволюционно далеких друг от друга. Тем не менее эта поразительная эволюционная устойчивость генов – лишь одна сторона медали сравнительной геномики. Другая же, оборотная сторона – это «текучесть» генного набора и архитектуры геномов всех форм жизни. Геномы прокариот особенно подвержены изменчивости. Наглядным примером этого является сравнение различных штаммов классической модели бактерий, лабораторного штамма К12 и нескольких патогенных штаммов кишечной палочки Escherichia coli (Perna et al., 2001). Последовательности ортологичных генов у этих бактерий почти одинаковы, однако некоторые патогенные штаммы имеют на 30 процентов больше генов, чем штамм К12, и генные наборы патогенных штаммов радикально различаются. Неизбежно возникает заключение, что «лишние» гены, формирующие так называемые островки патогенности, одними штаммами были приобретены, а другими утеряны (в гл. 5 мы еще вернемся к этой теме).