15 16
(здесь поставлено тире между первой и второй панелью маркеров, точнее – аллелей, потому что в длинных последовательностях чисел легко потеряться, а тире представляют собой метки, на которые можно ориентироваться),
в 37-маркерном формате
13 25 16 11 11 14 12 12 10 13 11 30–15 9 10 11 11 24 14 20 32 12 15
15 16–11 11 19 23 16 16 18 19 35 38 14 11
в 67-маркерном формате
13 25 16 11 11 14 12 12 10 13 11 30–15 9 10 11 11 24 14 20 32 12 15
15 16–11 11 19 23 16 16 18 19 35 38 14 11–11 8 17 17 8 12 10 8 11
10 12 22 22 15 10 12 12 13 8 14 23 21 12 12 11 13 11 11 12 13
в 111-маркерном формате
13 25 16 11 11 14 12 12 10 13 11 30–15 9 10 11 11 24 14 20 32 12 15
15 16–11 12 19 23 16 16 18 19 35 38 14 11–11 8 17 17 8 12 10 8 11
10 12 22 22 15 10 12 12 13 8 14 23 21 12 12 11 13 11 11 12 13–32 15
9 15 12 26 27 19 12 12 12 12 10 9 12 11 10 11 11 30 12 13 24 13 9 10
19 15 20 11 23 15 12 15 24 12 23 19 10 15 17 9 11 11
Вопрос 46: Что такое «стандартная запись гаплотипов в формате FTDNA»?
ФОРМАТ FTDNA – форма записи гаплотипов, принятая компанией Family Tree DNA (США), основной компанией в мире по тестированию ДНК, и далее принятая в ДНК-генеалогии. В статьях по популяционной генетике такая запись практически не используется, и по простой причине – протяженные гаплотипы там не используются. Порядок записи гаплотипов в попгенетике другой, и часто нестандартный, меняющийся у разных авторов. Но поскольку гаплотипы в попгенетике используются редко, то им такой разнобой не мешает.
Порядок маркеров в 12-, 25-, 37-, 67- и 111-маркерных гаплотипах следующий (в верхней строке – порядковый номер маркера, в нижней – индекс маркера DYS):
Вопрос 47: Что такое дерево гаплотипов, и какую программу для их построений можно использовать?
ДЕРЕВО ГАПЛОТИПОВ, серия гаплотипов, рассортированная с помощью специальной компьютерной программы и представленная в виде круговой, спиральной или линейной диаграммы (см. ниже). Эта диаграмма группирует гаплотипы по динамике их мутаций во всех маркерах, и таким образом представляет дерево в виде совокупности ветвей гаплотипов, соответствующих их наиболее вероятным ДНК-генеалогическим линиям. Например, среди гаплотипов гаплогруппы R1a встречаются гаплотипы с «типовой» мутацией, в которой маркер DYS388=12 заменён на DYS388=10. Это отдельная (и древняя) ДНК-генеалогическая линия, потому что и многие остальные мутации более присущи этой линии «10», по сравнению с мутациями для линии «12». Действительно, на дереве гаплотипов линия «10» выделяется в отдельную ветвь, которую следует анализировать отдельно. В настоящей книге деревья гаплотипов строились с помощью программы PHYLIP[53 - Felsenstein, J. (2004). PHYLIP (Phylogeny Inference Package). Version 3.6. Seattle: Department of Genome Sciences, University of Washington.].
В качестве примера приведем дерево гаплотипов гаплогруппы I1 из 800 гаплотипов в 111-маркерном формате в нескольких видах графического представления (последние три дерева – фрагмент) (рис. 8.).
Вопрос 48: Что такое гаплогруппа в ДНК-генеалогии?
ГАПЛОГРУППА, совокупность гаплотипов, объединённая «групповой» необратимой мутацией, присущей определённому человеческому роду, то есть потомкам одного «патриарха», как правило, тысячелетия назад. Эквивалентна понятию «род» в ДНК-генеалогии. Эти мутации («снипы») выбирают по определённым критериям. Гаплогруппой также называют сам род в таких выражениях, как «гаплогруппа мигрировала шесть тысяч лет назад на восток», понимая, естественно, что мигрировали носители данной гаплогруппы. В настоящее время классификация включает 20 основных гаплогрупп (плюс A0 и A00), от А до Т в алфавитном порядке, и тысячи «нисходящих» гаплогрупп и субкладов. Индекс гаплогруппы с надстрочным * (например, I*) показывает, что «нисходящих» мутаций у их носителей в классификации пока не обнаружено. Все тестированные носители – прямые потомки данной гаплогруппы или субклада.
Рис. 8. Дерево гаплотипов гаплогруппы I1 из 800 гаплотипов в 111-маркерном формате в нескольких видах графического представления (последние три дерева – фрагмент)
Вопрос 49: Что такое «бинарная гаплогруппа»?
БИНАРНАЯ ГАПЛОГРУППА, устаревшее название гаплогруппы, приводится здесь, потому, что всё ещё иногда встречается в публикациях. То же, что и «биаллельная гаплогруппа», потому что у мутации, её определяющей (снип, SNP, см. ниже) есть всего два состояния – либо мутация есть, либо её нет. То есть в соответствующем участке ДНК есть две аллели – исходная и мутированная. В отличие от них, тандемные мутации, или тандемные повторы (см. выше) являются, как правило, множественными и имеются в популяции в виде различных аллелей, то есть «полиаллельными».
Вопрос 50: Что такое субклад в ДНК-генеалогии?
СУБКЛАД, подчинённая, «нижестоящая» гаплогруппа, ДНК-генеалогическая ветвь в пределах той же гаплогруппы, все члены которой имеют не только мутацию основной гаплогруппы, но и дополнительную мутацию, общую только для данной ветви/ субклада. Например, гаплогруппа R имеет «подчинённые», или «дочерние» гаплогруппы R1 и R2; R1, в свою очередь, имеет R1a и R1b и так далее. R1a в настоящее время имеет 66 субкладов, утвержденных Международным обществом генетической генеалогии, R1b в настоящее время имеет 443 «официальных» субкладов.
Вопрос 51: Что такое мутация в ДНК-генеалогии?
МУТАЦИЯ, в ДНК-генеалогии биологическая ошибка при копировании последовательности Y-хромосомной ДНК, в результате которой (ошибки) или меняется число аллелей в определённом локусе (STR мутации, от Short Tandem Repeats), или происходит модификация гаплогруппы (SNP мутации, от Single Nucleotide Polymorphism). В отличие от мутации в генах, вызванной, например, радиоактивным излученияем, и при которой нуклеотид «ломается», то есть мутация там деструктивная, мутация в гаплотипах происходит обычно путем ошибочного копирования достаточно длинных фрагментов ДНК, при котором (копировании) происходит или удлинение, или укорачивание копируемого фрагмента ДНК. Это – не деструкция, а модификация. Но поскольку происходит отклонение от исходной «матрицы», то есть происходит ошибка копирования, то это тоже называют мутацией.
Вопрос 52: Что такое тандемная мутация в ДНК-генеалогии?
ТАНДЕМНАЯ МУТАЦИЯ в гаплотипе – это изменение числа аллелей в маркере. Происходит в среднем в маркере примерно раз в 500 поколений, хотя для каждого маркера своя скорость мутаций, которая для первых 37 маркеров варьируется от одного раза в 11100 поколений (DYS426, раз примерно в 280 тысяч лет) до одного раза в 140 поколений (CDYb, раз примерно в 3500 лет). Среди 67 маркеров есть такие, в которых мутация происходит раз в 125 тысяч поколений, то есть раз в 3.1 миллионов лет. По скоростям мутаций это сопоставимо со снипами. В популяции обычно наблюдается множественность аллелей в одних и тех же маркерах, то есть вариации аллелей. Совокупность этих вариаций позволяет рассчитывать время, когда жил один или несколько наиболее отдаленных предков популяции. Разные маркеры имеют разные скорости мутации в маркере, поэтому диапазоны вариации аллелей в разных маркерах разные.
Например, DYS426 – очень «медленный» маркер, всё человечество имеет всего четыре варианта аллелей – 10, 11, 12 и 13. Действительно, этот маркер имеет малую скорость мутации, она по оценкам равна 0.00009 мутаций на маркер на условное поколение. Это значит, что через пять тысяч лет среди тысячи наших современников всего у пятнадцати произойдет мутация в этом маркере – за 5 тысяч лет! Это несложно проверить, используя логарифмическую формулу, описанную выше: [ln(1000/985)]/0.00009 = 168 ? 202 условных поколения, то есть 5050 лет.
Напротив, наиболее часты мутации в маркерах DYS449, CDYa, CDYb, у которых на Земле обнаружено 12, 13 и 13 разных аллелей, а именно от 25 до 36, от 28 до 40, и от 31 до 43, соответственно.
Вопрос 53: Поясните понятие «среднее число мутаций на маркер»
Это – важнейшая величина в ДНК-генеалогии, она напрямую связана с гаплотипом прямого предка, от значения аллелей которого и отсчитываются мутации. В серии гаплотипов современников, потомков одного общего предка (то есть принадлежащих одной ДНК-генеалогической линии) насчитывается определённое суммарное количество мутаций. Чем больше прошло времени от общего предка серии гаплотипов (популяции), тем больше суммарное количество мутаций в рассматриваемой серии гаплотипов. Таким образом, отношение этого суммарного количества мутаций во всех маркерах (от всех аллелей) к общему числу маркеров есть мера того, как давно жил общий предок. Это есть базовое положение ДНК-генеалогии. Это отношение можно откалибровать в поколениях или годах по абсолютной шкале времени при наличии хронологических «реперных точек».
Поскольку число маркерах в гаплотипах достигает – для обычно используемых гаплотипов в ДНК-генеалогии – 111, то в каждом маркере за определенное число лет от общего предка накапливается определенное среднее количество мутаций. Например, в серии из 968 гаплотипов гаплогруппы I1 за 3690±370 лет, прошедшие от общего предка современных носителей гаплогруппы, в маркере DYS19 накопилось 263 мутации. При известной константе скорости мутации для маркера DYS19, полученной независимым путем и усредненной по всем выборкам и по всем гаплогруппам, и равной 0.00179 мутаций на маркер за условное поколение, получаем, что общий предок жил примерно 263/968/0.00179 = 152 условных поколений назад, или примерно 152x25 = 3800 лет назад. Как видим, это в пределах погрешности измерений, поскольку величина 3690±370 лет, показанная выше, была рассчитана по всем 968 гаплотипам в 111-маркерном формате. Мы постоянно пишем «примерно», потому все такие расчеты носят статистический характер. Даже 263 мутации, полученные прямым путем, все равно «примерные», и по законам статистики имеют погрешность ±6.2 %, что дает 263±16 мутаций, и это при щадящей достоверности в одну «сигма», то есть с надежностью 68 %. При надежности в 95 % это было бы 263±32 мутации. Далее, при расчетах по всем гаплотипам поправка на возвратные мутации вводилась, а при расчетах по одному маркеру она для простоты не вводилась. Наконец, величина константы скорости мутации (0.00179 мутаций на маркер за условное поколение) тоже определена с определенной погрешностью. Все это заставляет для корректности писать «примерно».
Еще пример, для особенно древнего общего предка, на этот раз гаплогруппы I2, который жил 9575±960 лет назад. В маркере DYS426 в серии из 244 гаплотипов накопилось всего 8 мутаций, поскольку это один из самых «медленных» маркеров, его константа скорости мутации равна 0.00009 мутаций на маркер за условное поколение. Получаем, что общий предок жил примерно 8/244/0.00009 = 364 условных поколений назад, или примерно 364х25 = 9100 лет назад. Это опять в пределах погрешности измерений, поскольку величина 9575±960 лет, показанная выше, была рассчитана по всем 244 гаплотипам в 111-маркерном формате.
Надо добавить, что величины констант скоростей мутаций определяли при изучении многих тысяч гаплотипов. В первой обширной статье по этой теме[54 - Rozhanskii, I.L., and Klyosov, A.A. (2011) Mutation rate constants in DNA genealogy (Y Chromosome). Advances in Anthropology, 1, No.2, 26–34.], опубликованной в 2011 году, и подводящей итоги четырехлетних исследований, рассматривали 3160 гаплотипов, из них 2488 гаплотипов в 67-маркерном формате, а в недавней статье[55 - Клёсов, А.А. и Килин, В.В. (2015) Калькулятор Килина-Клёсова для расчета времен до общих предков (TMRCA): новое издание. Вестник Академии ДНК-генеалогии, т.8, № 3, стр. 321-375] рассматривалисьь уже 11850 гаплотипов в 111-маркерном формате.
Вопрос 54: Как рассчитывают погрешности в ДНК-генеалогии?
ОБЩАЯ ОТНОСИТЕЛЬНАЯ ПОГРЕШНОСТЬ, важная величина, указывающая на доверительный интервал, или надежность определения расстояния до времени жизни общего предка рассматриваемой популяции. По правилам математической статистики, расчет погрешности обычно производится для «одной сигма» или «двух сигма», что соответствует 68 % и 95 % доверительному интервалу, соответственно. Для одной сигма берется обратная величина квадратного корня из общего числа мутаций в серии гаплотипов, возводится в квадрат, к ней прибавляется 0.01 (это квадрат средней погрешности величины константы скорости мутации, при принимаемой ее погрешности ±10 %, то есть 0.1), и из полученной суммы извлекается квадратный корень.
Например, при 100 мутациях (от базового гаплотипа) в серии гаплотипов получаем:
Таким образом, погрешность расчетов для 100 мутаций в серии равна ±14.14 %, или, округленно, 14 %. Это – для доверительного интервала 68 % (одна сигма).
Для доверительного интервала 95 % (два сигма) полученная величина удваивается, то есть погрешность расчетов составляет ±28 %. Но опыт показывает, что для расчетов реальных, документированных генеалогий, задавание доверительного интервала в одну сигма является реалистичным. Дело в том, что требование 95 %-ной точности нереально для ограниченных серий гаплотипов. Более того, после рассмотрения многих сотен экспериментальных серий гаплотипов выяснилось, что закладываемая погрешность для констант скоростей мутаций ±10 % является завышенной, на практике она не превышает ±2.5 %. Поэтому при 100 мутациях в серии гаплотипов погрешность при одной сигме составляет не ±14.14 %, а ±10.31 %.
Тем не менее, мы рекомендуем (и делаем это сами) давать результаты расчетов при завышенной погрешности, как описано выше. Лучше так, чем быть обвиненными в завышении «точности расчетов».
Погрешности рассчитываются по тем же правилам для количества мутаций и для скоростей мутаций в отдельных маркерах, и в гаплотипах, содержащих любое количество маркеров. Например, в маркере DYS391 для серии из 275 гаплотипов гаплогруппы N1c1 наблюдается 59 мутаций. По правилам статистики при одной сигма эти 59 мутаций на самом деле соответствуют 59±8 мутаций, так что неопределенность, или погрешность начинаются уже здесь. Погрешность получена как обратная величина квадратного корня, переведенная в величину 13.02 %. Если переводить это число мутаций в среднее число мутаций на маркер, получаем 59/275 = 0.2145, но погрешности целесообразно записывать уже в конце расчетов, чтобы не усложнять вычисления. С учетом поправки на возвратные мутации (пояснено ниже) получаем, что среднее число мутаций на маркер равно 0.2402, и поскольку значение константы скорости мутации для маркера DYS391 равно 0.0022, получаем, что «возраст» для маркера DYS391 для данной серии гаплотипов равен 0.2402/0.0022 = 96 условных поколений, или 2400 лет. Погрешность здесь уже больше, чем рассчитанные выше ±13.02 %, потому что к ней добавляется погрешность определения константы скорости мутации, которая в данном случае не менее ±30 %. В итоге обратную величину квадратного корня из 59 возводим в квадрат (получая 0.01695), прибавляем 0.09 (квадрат погрешности в определении константы скорости мутации), извлекаем квадратный корень из полученной суммы, и находим, что погрешность (которое еще называют средним квадратичным отклонением) равна в данном случае ±32.7 %. Мы видим, что при введение в расчеты константы скорости мутации погрешность более чем удвоилась. Получаем, что маркер DYS391 в данной серии указывает на «возраст» выборки 2400±800 лет.
Но когда расчет ведется по всем маркерам сразу, а не его индивидуальным величинам, то число аллелей и мутаций в них идет на тысячи, и погрешность получаемого «возраста» резко снижается, но никогда не становится меньше, чем погрешность определения константы скорости мутации. Последняя обычно принимается за ±10 %, хотя определенно меньше этой величины, как пояснено выше.
Вопрос 55: Что такое «снип» в ДНК-генеалогии?
СНИП, «гаплогруппо-образующая мутация», от английского сокращения SNP (Single Nucleotide Polymorphism), практически необратима, происходит, как правило, на одном нуклеотиде, превращая один нуклеотид в другой, несвойственный для данной последовательности ДНК. Это приводит к появлению своебразной «метки», которая практически навсегда наследуется потомками. Именно поэтому каждый род (в понятиях ДНК-генеалогии) носит характерную метку и может быть надёжно и количественно отличим один от другого. Снипы обозначают индексами, например, Z280 (это – «входная» мутация для ДНК большинства этнических русских гаплогруппы R1a), M343 («входная» мутация в гаплогруппу R1b), L21, что эквивалентно снипу S145 (мутация, определяющая один из наиболее распространных субкладов в центральной и западной Европе), и так далее. Первая буква снипа показывает, в каком научном коллективе снип идентифицирован. Наиболее используемые индексы следующие:
• М, лаборатория под руководством Peter Underhill, Stanford University (США);