Ключевое открытие сравнительной геномики состоит в том, что большинство генов в каждом геноме могут считаться высококонсервативными – они имеют легко обнаруживаемые гомологи в организмах, разделяемых сотнями миллионов лет эволюции (например, в случае генов человека, на уровне общего предка позвоночных; см. рис. 3–3; Wolf et al., 2009). Это открытие демонстрирует поразительную устойчивость последовательностей РНК и белков в процессе эволюции: типичное время исчезновения сходства последовательностей у гомологичных генов сравнимо со временем существования жизни на Земле. Помимо основополагающего значения, данный факт имеет огромные практические последствия: благодаря ему, прежде всего, сравнительная геномика становится крайне информативной и действенной.
Рис. 3–3. Распределение генов по эволюционному возрасту. «Эволюционный возраст» соответствует самому старому таксономическому узлу, в котором могут быть определены гомологи для белка, производимого данным геном. В частности, для человека древние всеобщие означает «гомологи, обнаруживаемые у прокариот», древние эукариотические означает «гомологи, обнаруживаемые у прокариот вне супергруппы униконтов» (см. гл. 7), царство и тип означает «гомологи, обнаруживаемые у животных вне класса млекопитающих», а класс и моложе означает «вне класса млекопитающих гомологи не обнаружены» (данные по Wolf et al., 2009)
Структуру эволюционного процесса определяют не только консервативные последовательности. На протяжении чрезвычайно длительных эволюционных периодов не просто сохраняется сходство последовательностей РНК и белков, но и гены имеют свойство сохранять свою уникальность. Иными словами, большинство генов развиваются как ортологичные линии, с редкими случаями дупликации (Koonin, 2005). Устойчивость ортологии генов становится очевидной благодаря простой процедуре, широко применяемой в сравнительной геномике и позволяющей эффективно выявлять ортологичные наборы генов. При этом ортологи обнаруживаются как «наилучшие совпадения при двунаправленном сравнении» (bidirectional best hits): все закодированные в геноме белковые последовательности сравниваются со всеми белками, закодированными в другом геноме, a затем процедура повторяется в обратном направлении (Tatusov et al., 1997). Пары генов, дающие наилучшие совпадения (те, которые демонстрируют наибольшее сходство последовательностей) при обоих направлениях сравнения, считаются возможными ортологами; нетрудно применить эту процедуру к нескольким видам путем совмещения треугольников двунаправленных совпадений, имеющих общую сторону (см. табл. 3–1). Примечательно, что такой прямолинейный подход в большинстве случаев хорошо срабатывает: к примеру, порядка 70 процентов генов организмов, разделенных приблизительно 100 миллионами лет эволюции, таких как люди и мыши, легко идентифицируются как ортологи при помощи описанной процедуры (Wolf et al., 2009). Если применить простую модификацию этого алгоритма и включить дупликации генов, характерных для одной линии наследования (дупликации, образовавшиеся после расхождения сравниваемых видов), такой подход позволяет идентифицировать наборы ортологов (известных как кластеры ортологичных генов, КОГ) во многих геномах, в том числе столь удаленных друг от друга, как археи и бактерии – представители двух доменов прокариот (см. гл. 5). Более точные и мощные способы обнаружения ортологов требуют подробного анализа филогенетических деревьев (см. табл. 3–1); впрочем, результаты такого анализа обычно близки к тем, что дают более простые методы, основанные только на сравнении последовательностей. Разумеется, для части генов история дупликаций и потерь настолько сложна, что обнаружить КОГ трудно, поэтому они становятся нечеткими кластерами с неопределенной внутренней структурой. По счастью, этих «трудных» генов в каждом геноме относительно немного.
Таблица 3–1. Классификация гомологичных связей генов: ортологи, паралоги и методы их определения.
Эволюционные связи генов:
• Гомология: гены, имеющие общее происхождение.
• Ортология: гомологичные гены, эволюционировавшие путем видообразования.
• Паралогия: гомологичные гены, эволюционировавшие путем дупликации.
• Ксенология: гомологичные гены, имитирующие ортологи, но образовавшиеся в результате горизонтального переноса гена из другой ветви.
• Паралогия, внутренняя и внешняя: паралогичные гены, возникшие в результате видоспецифической дупликации после (внутренняя) или до (внешняя) определенного события видообразования.
• Со-ортология: внутренне-паралогичные гены, совокупно ортологичные по отношению к генам другой ветви (из-за их общего происхождения в ходе видообразования).
• Ортологичная группа (КОГ): совокупность всех потомков данного предкового гена.
Изначально не вполне складная аббревиатура КОГ относилась к кластерам ортологичных групп (белков), чтобы обозначать соортологичные связи, вызванные дупликацией генов (см. табл. 3–1; Tatusov et al., 1997). Сейчас я предпочитаю расшифровывать КОГ просто как кластеры ортологичных генов, однако само по себе это сокращение остается чрезвычайно удобным для обозначения фундаментального свойства таких кластеров. Эта трехбуквенная аббревиатура широко используется в литературе, и я использую ее в данной книге в качестве сокращенного названия наборов ортологичных генов. Обычно каждый секвенированный геном более чем на 70 процентов состоит из генов, относящихся к КОГ (см. рис. 3–4). В эволюции генома, к которой мы обращаемся в этой книге неоднократно, эта величина представляется важной. Таким образом, существенное большинство генов в каждом геноме весьма консервативно, то есть представлено ортологами во многих далеко отстоящих друг от друга организмах.
Мультидоменные белки и сложность связей ортологов
В этой главе основной упор делается на рассмотрении взаимосвязи между стабильностью и изменчивостью в ходе эволюции. В настоящем разделе мы сосредоточим внимание на отдельных элементах белковой структуры, доменах и мультидоменной организации многих белков (Doolittle, 1995). Таким образом, мы заглянем по другую сторону генной эволюции, которая противостоит стабильности ортологичных линий, отмеченной ранее, и дополняет ее. Домен – центральное понятие в исследовании белков, и определение ему можно дать по меньшей мере на двух уровнях. По первому определению, домены представляют собой компактные элементы белковой структуры с характерными размерами около ста аминокислотных остатков. В этой главе нас интересуют родственные связи геномов, в частности ортология, поэтому необходимости рассматривать структурные элементы нет. Второе определение доменов относится к компактным единицам эволюции, которые могут охватывать один или несколько структурных элементов; здесь нас интересуют именно такие эволюционные домены.
Рис. 3–4. Уровень покрытия КОГ в геномах архей и бактерий. Полные наборы белков в 20 отобранных геномах бактерий (показаны черным) и 10 геномах архей (показаны серым), отнесенные к КОГ (Tatusov et al., 2003). Применялся метод COGNITOR (Makarova et al., 2007b)
Рис. 3–5. Разнообразие мультидоменной архитектуры гомологичных белков. На схеме сравнивается доменная архитектура двух паралогичных наборов древних и функционально незаменимых для всех организмов ортологичных белков: тирозил-тРНК синтетазы (TyrRS) и триптофанил-тРНК синтетазы (TrpRS). Каждый домен обозначен своей собственной геометрической формой (по Wolf et al., 1999a).
Мультидоменные белки обнаружены у всех форм жизни, но особенно характерны для сложных многоклеточных эукариот (Koonin et al., 2000a; Koonin et al., 2000b). Доменная архитектура этих белков демонстрирует различную степень эволюционной пластичности. Изменчивость особенно выражена у белковых архитектур, включающих так называемые «неразборчивые домены» (promiscuous domains), имеющие склонность к слиянию с разнообразными другими доменами (Basu et al., 2009). Разнообразная мультидоменная архитектура белков запутывает понятие ортологии. Считается, что в ходе долгой эволюции ортологичные гены сохраняют свою уникальность, в том числе функциональную (имеют одну и ту же эволюционную историю). Однако это правило нарушается в тех случаях, когда гены, казалось бы подпадающие под определение ортологии (см. табл. 3–1), меняют доменную архитектуру (см. рис. 3–5): в этих случаях лишь части соответствующих белков в разных организмах имеют одну и ту же эволюционную историю и выполняют одни и те же функции (хотя второе и не может быть гарантировано, поскольку взаимодействие доменов вполне может иметь существенные функциональные последствия).
Контраст между эволюционной пластичностью генома и стабильностью индивидуальных генов
Мы видели, что большинство генов в каждом геноме весьма консервативно: гомологи этих генов – чаще всего легко определяемые ортологи – обнаружены у организмов, эволюционно далеких друг от друга. Тем не менее эта поразительная эволюционная устойчивость генов – лишь одна сторона медали сравнительной геномики. Другая же, оборотная сторона – это «текучесть» генного набора и архитектуры геномов всех форм жизни. Геномы прокариот особенно подвержены изменчивости. Наглядным примером этого является сравнение различных штаммов классической модели бактерий, лабораторного штамма К12 и нескольких патогенных штаммов кишечной палочки Escherichia coli (Perna et al., 2001). Последовательности ортологичных генов у этих бактерий почти одинаковы, однако некоторые патогенные штаммы имеют на 30 процентов больше генов, чем штамм К12, и генные наборы патогенных штаммов радикально различаются. Неизбежно возникает заключение, что «лишние» гены, формирующие так называемые островки патогенности, одними штаммами были приобретены, а другими утеряны (в гл. 5 мы еще вернемся к этой теме).
В более общем плане можно измерить дистанцию между геномами, сравнив, с одной стороны, последовательности консервативных генов-маркеров, таких как рРНК или рибосомных (p) белков, а с другой стороны, исследовав ту часть генов, что формирует легко узнаваемые пары совпадающих ортологов (см. табл. 3–1). В отличие от постепенного, относительно медленного изменения нуклеотидной последовательности генов, наблюдается резкое несовпадение генных наборов (см. рис. 3–6). Заметим, что нет никакого противоречия между этим наблюдением и выводом о том, что для значительного большинства генов в геноме бактерии или археи имеются ортологи в некоторых эволюционно удаленных от них организмах. Здесь слово некоторых ключевое, поскольку у многих генов в любом геноме разное эволюционное происхождение и разная история, и потому их ближайшие родственники могут быть обнаружены в разных таксонах (см. гл. 5). Дистанцию между геномами, определяемую как доля общих (ортологичных) генов, можно использовать для описания «геномной вселенной», рассматриваемой далее в этой главе, а также для построения особого рода дерева эволюции (см. гл. 5).
Рис. 3–6. Расхождение порядка генов и генных составов между бактериями по сравнению с расхождением высококонсервативных последовательностей белков. Были вычислены расстояния от кишечной палочки K12, штамм MG1655, до 24 других разнообразных протеобактерий. Расстояние между последовательностями: расстояние наибольшего подобия (maximum likelihood distance) для соединенных выравниваний рибосомных белков вычислено с использованием программы PROTDIST пакета программного обеспечения филогенетического анализа Phylip (Felsenstein, 1996). Расстояние между генными порядками: – ln (JCOG), где JCOG – коэффициент подобия (коэффициент Жаккара) для набора КОГ в двух геномах. Расстояние между генными составами: – ln (JPAIR), где JPAIR – коэффициент Жаккара для множества неупорядоченных пар соседних КОГ в двух геномах. График исполнен в двойных логарифмических координатах.
Геномная архитектура, то есть расположение генов в геноме, проявляет еще большую эволюционную нестабильность, чем генный состав геномов, что контрастирует с консервативностью генных последовательностей (Koonin, 2009a; Novichkov et al., 2009). За исключением организации малых групп функционально связанных генов в оперонах, порядок генов сравнительно слабо сохраняется даже у близкородственных организмов[33 - Когда, сравнивая первые секвенированные бактериальные геномы, мы с Аркадием Мушегяном обнаружили, что порядок генов сохраняется столь слабо, это настолько нас поразило, что мы назвали краткую статью, описывающую это наблюдение, «Бактериальная эволюция не сохраняет порядка генов» (A. R. Mushegian and E. V. Koonin. Gene Order Is Not Conserved in Bacterial Evolution // Trends in Genetics 12 (1996a): 289–290). С точностью фактов, описанных в статье, кажется, все в порядке, но, если бы мне пришлось публиковать ее сегодня, я бы постарался отыскать для нее более точное и осторожное название. Однако то название, которое мы дали статье, зафиксировало наше удивление контрастом между сохранностью генных последовательностей и изменчивостью порядка генов.]. У прокариот сохранение порядка генов на большом протяжении генов не просматривается даже в некоторых группах геномов, которые сохраняют почти однозначное соответствие ортологичных генов и в среднем более 99 процентов идентичности последовательностей ортологичных белков (см. рис. 3–6). Эукариоты демонстрируют несколько большую сохранность порядка генов. Тем не менее даже в случае эукариот имеется мало общих элементов архитектуры генома между, например, разными типами в царстве животных и вообще никаких между животными и грибами или животными и растениями.
Геномные ландшафты: распределение эволюционных ограничений по разным классам сайтов в геноме
Рис. 3–7. Схематические геномные ландшафты. Распределение эволюционных ограничений по разным сайтам в геномах прокариот и эукариот вскрывает различные принципы геномной архитектуры: а – геном прокариот; б – геном эукариот.
Любой геном может быть представлен в виде геномного ландшафта, графика, напоминающего панораму города, где каждому нуклеотидному сайту присваивается высота, пропорциональная силе влияющих на него эволюционных ограничений. Ограничения имеет смысл рассматривать как меняющиеся в диапазоне от 0 (лишенная ограничений, нейтрально эволюционирущая, функционально не значимая позиция) до 1 (полностью ограниченная, функционально важная позиция, в которой изменения недопустимы, см. рис. 3–7; Koonin and Wolf, 2010b). Распределения ограничений по геному значительно отличаются у форм жизни с различными архитектурами генома. Эти отличия проявляются особенно ярко, если говорить о сравнении, с одной стороны, вирусов и прокариот с их геномами «стена к стене», в основном состоящими из генов, кодирующих белок или РНК, и, с другой стороны, многоклеточных эукариот, в геномах которых кодирующие нуклеотиды находятся в меньшинстве (см. рис. 3–7). В пересчете на один сайт, ограничения в компактных геномах, особенно у прокариот, на несколько порядков сильнее, чем ограничения в больших геномах многоклеточных эукариот. Белок-кодирующие последовательности и последовательности, кодирующие структурные РНК, подвержены наиболее сильным ограничениям во всех геномах. Подавляющее большинство белок-кодирующих генов, особенно у прокариот, имеют низкие значения Ka/Ks, что указывает на сильное давление очищающего отбора на эти последовательности (см. рис. 3–8 и предыдущую главу). В то же время во всех группах организмов существует значительная положительная корреляция между Ka и Ks, указывающая, что даже синонимические сайты в белок-кодирующих генах ограничены примерно в пропорции к ограничениям на несинонимичные сайты (Drummond and Wilke, 2008; см. также гл. 4). Учитывая, что прокариотические геномы почти полностью состоят из белоккодирующих генов со вкраплениями генов структурных РНК и коротких межгенных промежутков, в основном занятых разно образно ограниченными регуляторными регионами, эти компактные геномы содержат мало неограниченных сайтов. Заметным исключением являются псевдогены, редкие у большинства прокариот, но распространенные у некоторых паразитических бактерий, особенно растущих внутри эукариотических клеток, например Rickettsia или Mycobacterium leprae (Harrison and Gerstein, 2002). Геномы большинства вирусов еще более компактны, чем геномы прокариот, причем почти вся последовательность генома занята белок-коди рующими генами.
Рис. 3–8. Распределение отношения Ka/Ks в геномах прокариот и эукариот. Salinispora sp.: вычислено по ортологам в S. arenicola CNS-205 и S. tropica CNB-440 (актинобактерии). Homo sapiens: вычислено по ортологам в H. sapiens и Macaca mulatta (приматы). Значения Ка и Ks оценены с использованием программного обеспечения PAML (Yang, 2007). График в логарифмических координатах по оси абсцисс; ФПВ обозначает функцию плотности вероятности.
Рис. 3–9. Схематическая сводка эволюционных ограничений, действующих на различные классы геномных сайтов.
Одноклеточные эукариоты, напоминающие прокариот общей архитектурой генома, демонстрируют примерно одинаковые распределения эволюционных ограничений, хотя доля очевидно не подверженных ограничениям некодирующих последовательностей в их геномах несколько выше. Геномы многоклеточных эукариот (растений и особенно животных) являют собою разительную противоположность. Эти организмы имеют богатые интронами геномы с длинными межгенными промежутками; существенная, хотя и переменная часть этих некодирующих последовательностей, по-видимому, эволюционирует, не подвергаясь ограничениям. Доля нуклеотидов в геноме, подверженных эволюционным ограничениям, оценивается методами, основанными на критерии Макдональда – Крайтмана (см. табл. 2–2). Полученные оценки существенно отличаются даже между животными: у Drosophila около 70 процентов нуклеотидных сайтов в геноме, в том числе 65 процентов некодирующих участков, по всей видимости, подвержены отбору (в том числе положительному), а у млекопитающих эта доля оказывается в интервале 3–6 процентов (Koonin and Wolf, 2010b). Примечательно, однако, что абсолютное число подверженных отбору сайтов в столь разных по размеру геномах этих животных довольно близко. Напротив, в Arabidopsis, растении с геномом, размером и общей архитектурой сравнимыми с таковыми Drosophila, доля некодирующих подверженных ограничениям участков, по-видимому, существенно ниже.
Резюмируя существующее понимание ограничений, влияющих на различные классы и сайты во всем известном разнообразии геномов (см. рис. 3–9), отметим, что некоторые фундаментальные простые выводы являются бесспорными. В частности, нет никаких сомнений, что несинонимичные сайты в белок-кодирующих последовательностях и последовательности, кодирующие структурные РНК, являются одними из наиболее сильно ограниченных во всех геномах и что характерное распределение ограничений (геномный ландшафт) сильно коррелирует с архитектурой генома (Koonin and Wolf, 2010b). Однако помимо этих основных принципов, и довольно неожиданно, оказывается, что эволюционные режимы сильно различаются даже для некоторых относительно близких таксонов, таких как членистоногие и позвоночные. Чтобы выработать всеобъемлющую картину эволюционных ограничений и давления, формирующих геном, требуется еще множество дополнительных исследований по различным организмам. В последующих главах рассматриваются различные проявления давления отбора, влияющие на разные части генома.
Вселенная генов
Интеграция результатов сравнительной геномики позволяет нам начать строить карту всей «вселенной генов». Глобальная эволюционная устойчивость генов, проявляющаяся прежде всего в сохранении белковых и РНК-последовательностей, стала очевидной в результате самых первых сравнений секвенированных прокариотических и эукариотических геномов: бактерии Haemophilus influenzae и Mycoplasma genitalium, археи Methanocaldococcus jannaschii и эукариотических дрожжей Saccharomyces cerevisiae (Tatusov et al., 1997). Ключевое обобщение сравнительной геномики состоит в том, что гены не просто сохраняются на различных интервалах эволюционного процесса, но и представляют собой дискретные единицы эволюции, а именно ортологичные эволюционные линии (см. табл. 3–1). В сегодняшней коллекции секвенированных геномов найдены ортологи в далеких таксонах для значительного большинства белок-кодирующих генов в каждом геноме. Ярким примером являются недавние результаты секвенирования генома примитивных животных: многочисленные гены Trichoplax и губки связаны ортологичными отношениями с генами млекопитающих и птиц (Putnam et al., 2007; Srivastava et al., 2008; Srivastava et al., 2010). Один из выводов состоит в том, что характерная продолжительность жизни животного гена в этих линиях охватывает по меньшей мере сотни миллионов лет. Многие другие группы животных, такие как насекомые, утеряли многочисленные гены (Koonin et al., 2004), так что судьба одного и того же гена в большинстве случаев отличается в разных линиях, в результате чего мы получаем «пятнистую» филетическую модель. (Как подчеркивается далее в этой главе, множество поистине универсальных генов чрезвычайно мало.) Судьбы конкретных генов в разных линиях зависят как от случайных факторов, так и от различий в давлении отбора (см. гл. 9). Результаты обширного сравнительного анализа геномов растений, грибов и прокариот полностью совместимы с этим выводом. Когда гены в геноме классифицируются по их относительному «возрасту» (то есть филогенетической глубине, на которой обнаруживаются гомологи), наблюдаемое расхождение подобно для удаленных друг от друга организмов, как показано на рис. 3–3 для генетических наборов человека и грибка Aspergillus fumigatus (Wolf et al., 2009), двух организмов, разделенных, по-видимому, миллиардами лет эволюции. Тем не менее распределения генных возрастов поразительно похожи: в каждом случае древних генов, для которых легко обнаруживаются гомологи в далеких таксонах, значительно больше, чем «молодых» генов. Несмотря на частую потерю в отдельных эволюционных линиях, гены характеризуются чрезвычайной долговечностью, и многие из них, возможно, бессмертны[34 - Разумеется, если биосфера выживает.].
Как обсуждается далее в этой книге (гл. 5 и 7), пути передачи генетической информации у прокариот принципиально отличаются от таковых у эукариот. Тем не менее доли консервативных генов у них примерно равны. В настоящее время эта доля хорошо известна и очень близка у разнообразных бактерий и архей, почти как фундаментальная постоянная: для 70–80 процентов генов ортологи обнаруживаются в далеких организмах (Koonin and Wolf, 2008b; см. рис. 3–4).
Минимальные наборы генов, замещение неортологичных генов (ЗНОГ) и ускользающее незаменимое ядро жизни
Секвенирование геномов симбиотических и паразитических бактерий привело к соблазнительной идее, что их генетический репертуар может быть близок к «наименьшему возможному набору генов», то есть такому, который является необходимым и достаточным для поддержания простой (прокариотической) клетки при самых благоприятных условиях, какие только могут существовать вне других клеток (Fraser et al., 1995; Mushegian and Koonin, 1996b). Последнее условие чрезвычайно важно, поскольку «наименьшим возможным» набор генов будет лишь в отношении к окружающей среде, в которой соответствующий организм существует (или мог бы существовать, в случае «концептуальных» геномов, полученных компьютерными методами). Однако, как только появились первые два полных бактериальных генома, вторым из которых был геном Mycoplasma genitalium[35 - Статья, описывающая геном M. genitalium, называется «Минимальный набор генов бактерии Mycoplasma genitalium» (C. M. Fraser, J. D. Gocayne, O. White, M. D. Adams, R. A. Clayton, R. D. Fleischmann, C. J. Bult, A. R. Kerlavage, G. Sutton, J. M. Kelley et al. The Minimal Gene Complement of Mycoplasma genitalium // Science 270 (1995): 397–403). Однако, хоть и имея столь малое число генов, этот организм весьма специализирован и потому не может полагаться действительно «минимальным».], лишенной клеточной стенки паразитической бактерии с размером генома всего около 570 генов, возникла очевидная идея, что «истинный» наименьший набор можно естественным образом вывести, сравнивая геномы этих двух существенно различно специализированных бактериальных патогенов (Mushegian and Koonin, 1996b). Точнее, можно было бы ожидать, что ортологичные гены в двух организмах будет представлять собой набор основных биологических функций, которые необходимы для выживания клетки, независимо от уникального образа жизни каждого организма.
Сравнение геномных наборов H. influenzae и M. genitalium дало 240 пар ортологичных генов, охватывающих большую часть очевидно существенных клеточных функций. Тем не менее в этом консервативном наборе несколько важных функций явно отсутствовали. До сих пор мы не говорили о «настоящей биологии», о биологических функциях, ролях генов, но теперь мы должны начать думать биологически. Определение минимального набора основных биологических функций – задача непростая. Соблазнительно, конечно, попытаться «разобрать эволюцию по винтику»: идя от сравнительной геномики, определить минимальный набор основных генов, сохраняемых во всех клеточных формах жизни. Но этот подход упускает возможность, что разные организмы могли прийти к решению одной и той же принципиальной задачи независимыми путями. Мы увидим далее в этой главе, что такая гипотетическая возможность действительно отражает важный аспект биологической реальности. Таким образом, чтобы очертить минимальный набор клеточных функций, нам необходимо обратиться к логике биохимии и клеточной биологии. Знаний в этих областях несомненно достаточно, чтобы составить разумный каталог основных функций. Само собой, это знание несовершенно, поэтому на самом деле вычисление минимального набора генов требует многократного поочередного обращения к биологическому обоснованию и сравнительному геномному анализу. Мы с Аркадием Мушегяном предположили, что принципиально важные функции, отсутствующие среди 240 ортологов H. influenzae и M. genitalium, вероятно, исполняются неродственными или отдаленно родственными белками в этих двух бактериях. Мы привлекли определенные догадки, чтобы увеличить предполагаемый минимальный набор на 16 дополнительных генов M. genitalium (см. рис. 3-10). Этот простое упражнение в получении минимального набора генов соединением сравнительной геномики и биологической логики оказалось достаточно успешным и, по-видимому, определило приближенный функциональный репертуар простейшей бактериальной клетки, способной к самостоятельному росту в наиболее благоприятных условиях. В самом деле, последующие эксперименты с нокаутом генов подтвердили, что большинство из генов, включенных в минимальный набор, необходимы для выживания бактерий и что гены из минимального набора присутствуют в большинстве (хотя и не обязательно во всех) вновь секвенированных бактериальных геномах (Delaye and Moya, 2010; Koonin, 2003).
Рис. 3-10. Выделение минимального набора генов клеточной жизни методами сравнительной геномики. G1, G2, G3 – три сравниваемых генома; С – набор консервативных генов.
Рис. 3-11. Распределение числа генов по биологическим функциям в минимальном генном наборе, полном наборе КОГ и среди экспериментально определенных незаменимых генов бактерии Bacillus subtilis. Данные по Koonin, 2003.
Поучительно провести теперь функциональную перепись минимального бактериального набора генов. В этом наборе преобладают гены, которые кодируют белки, участвующие в передаче информации в клетке (репликации, транскрипции и, прежде всего, трансляции). Метаболические ферменты и белки транспортной системы представлены куда более разреженно, что вполне ожидаемо для организма, растущего в самой богатой из возможных сред. Этим минимальный набор генов резко отличается от полного набора КОГ, но напоминает набор незаменимых бактериальных генов (нокаут которых убивает бактерию, см. рис. 3-11). Эта особая эволюционная устойчивость систем передачи клеточной информации является одним из центральных обобщений сравнительной геномики. Мы вернемся к этому вопросу позднее.
Рис. 3-12. Эволюционный сценарий замещения неортологичных генов.
По-видимому, самым весомым результатом поиска минимального набора генов было открытие, что в списке легко обнаружимых ортологов недостает нескольких важных функций. Этот результат был подтвержден и значительно усилен при сравнении бактериальных геномов с первым архейным (Methanocaldococcus jannaschii), когда в наборе консервативных необходимых функций выявилось несколько дополнительных зияющих пробелов. Эти выводы были обобщены в понятии замещения неортологичных генов (ЗНОГ), эволюционном сценарии, при котором неродственные или отдаленно родственные гены (иными словами, не ортологи) становятся ответственными за одни и те же необходимые функции в разных организмах (Koonin, 2003). Сам этот эволюционный сценарий легко представить (см. рис 3-12): чтобы произошло ЗНОГ, эволюционирующая линия приобретает альтернативный, функционально избыточный ген для некоторой незаменимой функции и таким образом проходит через промежуточное состояние, в котором присутствуют обе реализации данной функции (такая избыточность часто наблюдается у организмов с более сложными геномами), а затем теряет начальный ген (Koonin and Mushegian, 1996). С ростом коллекции секвенированных геномов обнаруживается все больше организмов, в которых оба варианта действительно представлены для разнообразных функций; таким образом, сценарий эволюции ЗНОГ, представленный на рис. 3-12, становится все более правдоподобным.
В табл. 3–2 описывается несколько примеров ключевых биологических функций, для которых два или несколько неродственных ферментов по-разному представлены в частично дополнительных, но обычно перекрывающихся группах эволюционных линий. Даже эти отдельные примеры показывают, что ЗНОГ происходит в самых различных функциональных системах и путях. В дальнейшем, с заметным увеличением числа секвенированных геномов, стало ясно, что ЗНОГ и утрата генов в отдельных линиях настолько широко распространены, что лишь малое число функций являются действительно мономорфными и вездесущими (то есть представлены ортологичными генами во всех организмах). Вместе с тем универсальное ядро жизни уменьшилось почти до исчезновения: все, что остается универсальным, – это около тридцати генов белков трансляции и три больших субъединицы РНК-полимеразы, а также примерно равное число генов структурных РНК (рРНК и тРНК).
Таблица 3–2. Примеры замещения неортологичных генов.
Даже при исключении паразитических бактерий перечень универсальных генов расширяется незначительно (Koonin, 2003). Таким образом, за исключением небольшого числа генов, участвующих в основных этапах передачи информации, не существует универсального генетического ядра жизни, в связи с повсеместными ЗНОГ и потерей генов. Концепция небольшого, универсального набора функций, необходимых для поддержания клетки, остается жизнеспособной, но, учитывая комбинаторику ЗНОГ, этот наименьший набор функциональных ниш может заполняться огромным разнообразием генных ансамблей.
Единицы эволюции и фрактальная структура генетической вселенной
Результаты сравнительной геномики приводят к ключевому обобщению, которое позволяет нам выполнять продуктивные эволюционные исследования: основные единицы эволюции могут быть довольно четко определены, и единицы эти – кластеры ортологичных генов, или эволюционные домены (КОГ), или, еще точнее, линии эволюционирующих ортологичных генов (доменов). Истории отдельных генов часто сложны (а во многих случаях даже чрезвычайно сложны) и включают в себя множественные утраты генов, дупликацию и горизонтальный перенос (ниже в настоящей книге мы обсудим эти явления подробнее, см. гл. 5 и 7). Предрасположенность генов к дупликации, утрате и переносу варьирует в широких пределах. Однако, невзирая на все эти осложнения, атомарное свойство наборов ортологичных генов твердо соблюдается: КОГ суть естественные элементы генетической вселенной.
Генетическая (геномная) вселенная (это только метафора, но удобная и, возможно, продуктивная) может быть представлена как развивающееся пространство-время, заполненное кластерами, состоящими из генов (то есть КОГ), или, точнее, эволюционирующими линиями ортологов, элементарными единицами эволюции. Ортология легче всего прослеживается между прокариотическими генами, так что здесь мы обсудим прокариотическую область геномной вселенной. Тенденции среди эукариотов в принципе похожи, но осложнены распространенной мультидоменной организацией белков и обширной паралогией. В нашем геномном пространстве заметно характерное распределение КОГ по геномам, хорошо аппроксимируемое тремя экспонентами с разными показателями, которые делят генную популяцию на три класса (см. рис. 3-13, а – в; Koonin and Wolf, 2008b).
1. (Почти) универсальные гены, те, что представлены в (почти) всех геномах клеточных форм жизни, составляют лишь малую часть генетической вселенной: это ядро клеточной жизни состоит, самое большее, из приблизительно 70 генов. В каждом конкретном геноме доля этих «ядерных» генов составляет не более 10 процентов, если говорить о самых маленьких геномах клеточных форм жизни (паразитических бактерий, таких как M. genitalium), но обычно ближе к 1 проценту или менее от общего числа генов (см. рис. 3-14).
2. Умеренно консервативная генная оболочка состоит из КОГ, представленных в самых разнообразных геномах, но не в подавляющем их большинстве. Недавний анализ имеющихся прокариотических геномов дает число КОГ оболочки около 5000. Гены оболочки составляют большую часть числа генов в любом геноме (см. рис. 3-14).
3. Малоконсервативное «облако» состоит из КОГ, встречающихся в узких группах организмов, и «генов-сирот» – генов в открытых рамках считывания (ОРС), обнаруженных пока что в одном-единственном геноме, но гомологи которых обычно обнаруживаются во вновь появляющихся геномных данных. Гены «облака» составляют переменную долю в каждом геноме, обычно в интервале 10–30 процентов от общего числа генов (см. рис. 3-14).