27 19 12 12 12 12 10 9 12 11 10 11 12 30 12 14 25 13 9 10 18 15 20 12
24 15 12 15 24 12 23 19 11 15 17 9 11 11
Это – так называемый 111-маркерный гаплотип. Здесь первое число показывает, что в одном из маркеров, или локусов Y-хромосомы определенная последовательность нуклеотидов повторяется 13 раз. В другом маркере, который здесь показан как следующий, блок нуклеотидов повторяется 24 раза, и так далее.
Покажем для сравнения 67-маркерный гаплотип киргиза, из Киргизского Проекта FTDNA (FTDNA – это наиболее известная американская коммерческая компания, которая также ведет значительную исследовательскую работу, и ведет сотни научных и информационных проектов):
13 25 16 11 11 14 12 12 10 13 11 18 15 9 10 11 11 23 14 21 32 12 15
15 16 11 11 19 23 16 16 19 17 33 40 14 11 11 8 17 17 8 11 10 8 12 10
12 21 22 15 10 12 12 13 8 14 22 21 12 12 11 13 11 11 12 12
И еще один гаплотип, другого киргиза из того же Проекта:
13 26 16 11 11 11 12 12 10 14 11 17 15 9 10 11 11 24 14 21 31 12 15
15 16 11 11 19 23 16 16 18 17 33 40 15 11 11 8 17 17 8 11 10 8 12
10 12 21 22 15 10 12 12 13 8 13 22 21 12 12 11 13 11 11 12 12
Выделены мутации между моим гаплотипом и каждым из приведенных киргизских. Их, соответственно, 31 и 33 мутации, а между двумя киргизскими – всего 9 мутаций. Видно, что оба киргиза между собой намного более близкие родственники, чем каждый из них со мной. Уже просматривается основа для определенных выводов, особенно когда изучаются не два гаплотипа, а десятки, сотни, тысячи гаплотипов.
Здесь мутации в ряде маркеров подсчитывались специальным образом, но не будем сейчас на этом останавливаться. Эти различия можно перевести в хронологические показатели, зная среднюю скорость образования мутаций в гаплотипах, и получится, что общий предок автора этих слов и указанных киргизов жил примерно 4500 лет назад, в середине III тыс до н. э., как раз во времена арийских миграций по Русской равнине и Средней Азии, а обоих киргизов – примерно 1010 лет назад, в начале 11-го века нашей эры. Как делается такой расчет, мы покажем ниже.
Вопрос 12: Вы упомянули, что в Y-хромосоме происходит в среднем одна снип-мутация за поколение. Как это определили?
По данным разных исследователей, необратимые снип-мутации в Y-хромосоме, и, видимо, в ДНК в целом, происходят со средней скоростью между 0.5 ? 10
и 1.0 ? 10
на нуклеотид в год. В последнее время прошла серия работ независимых исследователей, в которых средняя скорость снип-мутаций определена как 0.78-0.82 ? 10
на нуклеотид в год. Наконец, исследователи в компании YFull, которые занимаются расчетами скоростей мутаций в Y-хромосоме, принимают в своих расчетах величину скорости 0.8178 ? 10
на нуклеотид за год[14 - Адамов, Д., Гурьянов, В., Каржавин, С., Таганкин, В., Урасин, В. (2015) Константа скорости SNP мутаций Y-хромосомы по данным полного секвенирования. The Russian Journal of Genetic Genealogy (Русская версия): Том 7, № 1,46–67.], хотя такая точность определения совершенно нереальна. Поскольку вся Y-хромосома – примерно 58 миллионов нуклеотидов, и если скорость снип-мутации – 0.8178 ? 10
на нуклеотид за год, то это составляет 0.8178 ? 10
х58 ? 10
= 0.04743 на всю хромосому в год, или 1.185 на всю хромосому за 25 лет. Даже если скорость мутаций не такая точная, а, как свидетельствуют разные публикации, между 0.5 и 1.0 ? 10
, то снип-мутации происходят в среднем между 0.725 и 1.45 мутаций на всю Y-хромосому за 25 лет. То есть как ни считать, мутации в Y-хромосоме происходят со средней скоростью примерно одна мутация за поколение.
Вопрос 13: В последнее время датировки образования гаплогрупп и субкладов определяют по числу снип-мутаций между субкладами или от рассматриваемого субклада до настоящего времени. Сколько при этом принимают число лет на снип? В литературе встречаются величины от 90 до 200 лет на снип. Как такое может быть? Судя по вашим сообщениям, вы весьма критически относитесь к расчетам по снипам, предпочитая расчеты по гаплотипам. Так ли это?
Такое быть не может по разным причинам – или неправильно считают, или считают по разным фрагментам Y-хромосомы. В ответе на предыдущий вопрос было показано, что если брать для расчетов всю Y-хромосому, то одна снип-мутация происходит примерно раз в 25 лет, и эта величина еще зависит от того, какую скорость мутации принять для расчетов. Если скорость мутации будут брать от 0.5Х10
до 1.о ? 10
на нуклеотид за год, то снип-мутация происходит раз в интервал времени между 34 и 17 лет. Мы уже видим, что если скорость мутации не откалибровать надежно, то точность такого метода невелика. Помимо того, точность в реальных условиях еще более низкая, потому что почти никто не секвенирует полную Y-хромосому в поисках снипов, а секвенируют фрагменты, либо небольшие, в 300–500 тысяч нуклеотидов, либо в 10 миллионов нуклеотидов (как в методе BigY), либо, реже, в 30 миллионов нуклеотидов. Но когда пишут, что секвенируют фрагмент в 10 миллионов нуклеотидов, там фрагмент легко может оказаться между 8 и 11 миллионами, и это еще оптимистическое заключение.
Давайте посмотрим, к чему это приведет. Как отмечалось выше, компания YFull принимает величину константы скорости мутации 0.8178Х10
, в таком случае одна мутация во всей
Y-хромосоме происходит в среднем раз в 1/0.04743 = 21.08 лет. Во фрагменте в 30 миллионов нуклеотидов – раз в 41 год. Во фрагменте в 10 миллионов нуклеотидов – раз в 122 лет. Если фрагменты малые, в 300 тысяч нуклеотидов, то раз в 4075 лет. Вот и выбирайте. YFull собщает, что средний размер фрагмента Y-хромосомы, по которому они ведут расчеты, составляет 8467165 нуклеотидов (такая точность тоже смешна, ну да ладно, это у попгенетиков неисправимо). Тогда одна мутация в таком фрагменте происходит в среднем раз в 144.41 лет (это опять сообщают YFull, опять с такой точностью). Когда умножают на число снипов, к этому прибавляют еще 60 лет. Как объясняют в YFull, 60 лет – это средний возраст клиента, который к ним обращается.
Итак, если читатель не хочет разбираться в деталях, то на этом этапе можно резюмировать, что если исследователи сообщают, что анализируют (в поисках снипов) фрагменты Y-хромосомы в 10 миллионов нуклеотидов, то там на самом деле может быть восемь с половиной миллионов нуклеотидов, и если при этом считать, что скорость снип-мутации составляет именно 0.8178 ? 10
на нуклеотид в год, то одна снип-мутация происходит раз в 144 года. На деле там, конечно, погрешность более чем солидная.
Но это еще не всё, и погрешность часто еще значительно больше. Дело в том, что снип-мутации происходят не через равные промежутки времени, а неупорядоченно. Если при этом рассматриваются цепочки снипов протяженностью десятки и сотни тысяч лет, то это аналогично рассмотрению ситуации с сотнями бросков монеты, и погрешности из-за неупорядоченности нивелируются. Но для относительно недавних снипов метод расчета очень неточный. Например, если снип образовался 750 лет назад, то в цепочке нисходящих снипов их всего 750/144 = 5 снипов, и погрешность определения времени образования, согласно формулам математической статистики, не меньше ±46 % (с 68 %-ной достоверностью) или ±92 % (с 95%ной достоверностью). В итоге погрешности у большинства датировок по снипам в таблице значительно более высокие, чем у датировок по мутациям в гаплотипах, которые будут рассматриваться ниже.
Есть еще серьезная проблема – в расчетах компании YFull часто игнорируют фактическое количество снипов, и ставят ту датировку, которая им представляется более правильной, «по понятиям». При этом они всегда постулируют, что при разветвлении снипов они образовались точно в одно и то же время, хотя это события совершенно независимые. По аналогии, если у отца двое сыновей, то их возраст далеко не всегда одинаковый, один мог родиться, когда отцу было 18 лет, другой – когда отцу было 70 лет. Такой постулат, «о равенстве возраста сыновей» часто приводит к ситуациям, когда к одному снипу от вышестоящего ведет 5 мутаций (в среднем 720 лет), к другому 20 мутаций (в среднем 2880 лет), а YFull записывает их «возраст» как одинаковый, либо 720, либо 2880 лет, выбор датировки фактически произвольный. В итоге получаются несуразные датировки.
Примеры – в переходе R1a-Y35 > YP7278 зафиксировано 9 промежуточных снипов (это приведено в таблице на сайте YFull), что соответствует 1300 лет разницы, однако датировка для обоих снипов, родительского и нисходящего, приведена как одинаковая, 4300 лет назад. В переходе CTS3402 > CTS2613 зафиксировано 17 промежуточных снипов (2450 лет разницы), однако датировка для обоих снипов в списке YFull – одинаковые 4300 лет назад, вместо 1850 лет назад для нисходящего, как должно быть (и как дает более точная датировка по гаплотипам). И так в таблицах YFull повторяется десятки и сотни раз.
Приходится на этом столь подробно останавливаться, потому что в последнее время усиленно распространяется легенда, что расчеты по снипам – значительно более точные, чем любыми другими методами. Историки могут принять эту легенду за чистую монету, и опять повторится ситуация последних 15 лет, когда практически все расчеты популяционными генетиками, опубликованные в академических журналах, были кардинально искажены, с завышениями до 300–400 %. Для расчетов на времена удаленные, как правило, более 5-10 тысяч лет назад, и тем более на 100–200 тысяч лет назад, когда число снип-мутаций исчисляется многими сотнями, расчеты по снипам действительно могут оказаться полезными, но вводимые постулаты, как равенство датировок для «параллельных» снипов, опять сводит эту пользу к нулю, если не к отрицательным величинам.
Так что да, я весьма критически отношусь к расчетам датировок по снипам, если они не подтверждены перекрестными расчетами с использованием других методов, например, по мутациям в гаплотипах, о чем речь пойдет ниже. Но часто бывает, что другие методы непригодны, или нет соответствующих гаплотипов. Тогда приходится принимать то, что есть. Но часто бывает, что совпадение расчетов по снипам и гаплотипам вполне удовлетворительное. Это придает уверенность, что в принципе подход, основанный на числе снипов, правильный, но он нуждается в доработке.
Здесь надо сказать, что попгенетики опять в своем амплуа – Балановский уже провозгласил, что метод расчетов по снипам самый точный, и ненавистные ему расчетные подходы ДНК-генеалогии можно отставить. Это опять было провозглашено без какого-либо исследования, и единственная статья, в которой Балановский этот метод использовал, дала неверные результаты. Дело в том, что Балановский в своей манере выхватил из многих вариантов лишь одну скорость мутации – 122 года на снип, без малейшего ее обоснования или проверки, и опять получил неверные датировки[15 - Underhill, P.A., Poznik, G.D., Rootsi, S., Jarve, M., Lin, A.A., Wang, J., Passarelli, B., Kanbar, J., Myres, N.M., King, R.J., Cristofaro, J.D., Sahakyan, H., Behar, D.M., Kushniarevich, A., Sarac, J.S., Saric, T., Rudan, P., Pathak, A.K., Chaubey, G., Grugni, V., Semino, O., Yepiskoposyan, L., Bahmanimehr, A., Farjadian, S., Balanovsky, O., Khusnutdinova, E.K., Herrera, R.J., Chiaroni, J., Bustamante, C.D., Quake, S.R., Kivisild, T., Villems, R. (2015) The phylogenetic and geographic structure of Y-chromosome haplogroup R1a. European Journal of Human Genetics 23, 124–131.].
Вопрос 14: Что такое гаплотип, и откуда получают те числа, которые показаны при записи гаплотипов?
Эти числа называются «аллели», и показывают, сколько раз определенная (относительно короткая) последовательность нуклеотидов повторяется в Y-хромосоме ДНК человека. Например, такая последовательность: аденин-гуанин-аденин-тимин, или в сокращенном виде АГАТ, или, как чаще записывают, AGAT. Участок Y-хромосомы, в котором имеет место такой повтор, который еще называют «тандемным повтором», четко определен, и носит название DYS393 (DYS означает DNA Y-chromosome Segment, то есть “сегмент Y-хромосомы ДНК). Каждый из таких участков ДНК называется «маркером», и таких маркеров в Y-хромосоме человека примерно 2500.
В моем гаплотипе, приведенном выше, как и в гаплотипах обоих киргизов, это – первое число, равное 13. Это записывается как DYS393=13, и означает, что у всех нас в данном маркере четверка AGAT повторяется 13 раз. Вот так:
и эти повторы обрамляются уже неупорядоченными последовательностями нуклеотидов в ДНК, как показано выше.
Второе число, аллель в маркере DYS390, у нас троих у всех разное, у меня 24, у одного из упомянутых киргизов 25, у другого – 26. Это – суммарное число повторов других тандемных четверок, а именно TCTG, то есть тимин-цитозин-тимин-гуанин, и ТСТА, тимин-цитозин-тимин-аденин.
В данном случае четверка, TCTG переходит в четверку TCTA, и число повторов складывается.
То есть мы видим, что тандемные повторы состоят не только из разных нуклеотидов в разных комбинациях, и различаются не только числом повторов, но и порой разные повторы комбинируются в одном маркере. Все это создает огромное число вариантов комбинаций, и, как уже было упомянуто, в Y-хромосоме имеется примерно 2500 разных маркеров. Из них в ДНК-генеалогии используется пока не так много, немногим более ста, в редких случаях несколько сотен, как будет показано ниже. Большинство их стандартизованы, то есть записываются в стандартном виде, содержат определенное число аллелей, записанных в определенной последовательности. Ниже я продемонстрирую разные варианты гаплотипов, взяв свой за пример.
Гаплотипы ДНК выбирают так, чтобы в них маркеров было как можно больше (но все-таки чтобы оставаться в рамках практичности), и в ранних работах, примерно до 2005-го года, использовались 6-маркерные гаплотипы, как, например, такой
16 12 24 11 11 13
Это – аллели в маркерах DYS19, DYS388, DYS390, DYS391, DYS392 и DYS393. Видно, что в ранних работах маркеры в гаплотипах располагали в порядке нумерации. Но система быстро сбилась из-за ее непрактичности, потому что при добавлении новых маркеров приходилось опять перетасовывать всю цепочку гаплотипа. Поэтому до 12-маркерных гаплотипов (в 7-, 8-, 9-, 10-, 11-маркерных) наблюдается разнобой в их последовательности, а с 12-маркерных система в целом упорядочивается, и новые маркеры просто добавляются к первым 12 маркерам:
13 24 16 11 11 15 12 12 10 13 11 17
Это – маркеры DYS393, DYS390, DYS19, DYS391, DYS385a, DYS385b, DYS426, DYS388, DYS439, DYS389-1, DYS392 и DYS389-2.