26 – 33
27 – 1
Видно, что мутации уже более «размазанные» по аллелям. Считая, что все мутации одношаговые, получаем 1165 мутаций на 3466 аллелей, то есть в среднем 0.336 мутаций на маркер DYS390. Мы видим, что среднее число мутаций в маркере DYS390 для той же серии гаплотипов уже в пять раз выше. Если бы не сложности статистического характера, упомянутые выше, можно было бы полагать, что эта разница отражает количественную разницу в соответствующих константах скорости мутации для маркеров DYS393 и DYS390, но это не совсем так. Константы равны 0.00059 и 0.0022 мутаций на маркер на условное поколение, то есть различаются только в 3.7 раз. Под «сложностями статистического характера» здесь понимаются и введение поправок на возвратные мутации, и несимметричность распределения числа мутаций «вверх» и «вниз» (см. приведенные выше примеры), и наличие нижестоящих субкладов, гаплотипы которых могут (системно) по мутациям отличаться от гаплотипов вышестоящих субкладов, и многие факторы, которые надо учитывать при корректном анализе в ДНК-генеалогии. Примеры даны ниже.
Вопрос 61: Что такое поправки на возвратные мутации, и как они рассчитываются?
Как было пояснено выше, вклад возвратных мутаций вызывается тем, что часть мутаций вернулись в исходное положение предковой аллели (13 или 24 для случаев маркеров DYS393 и DYS390, рассмотренных выше), и таким образом мы наблюдаем некоторый недобор мутаций. Формулы для расчетов поправочных коэффициентов даны в работах[57 - Адамов, Д.С., Клёсов, А.А. (2009) Определение возраста популяций по STR гаплотипам Y-хромосомы. Часть II. Погрешности расчетов. Вестник Российской Академии ДНК-генеалогии, т. 2, № 1, стр. 93-103; Адамов, Д.С., Клёсов, А.А. (2009) Определение возраста популяций по STR гаплотипам Y-хромосомы. Часть III. Примеры «линейных» и «квадратичных» моделей с учетом степени асимметрии мутаций. Вестник Российской Академии ДНК-генеалогии, т. 2, № 2, стр. 187–199; Klyosov, A.A. (2009) DNA Genealogy, mutation rates, and some historical evidences written in Y-chromosome. I. Basic principles and the method. J. Genetic Genealogy, 5, 186–216; Klyosov, A.A. (2012) Ancient history of the Arbins, bearers of haplogroup R1b, from Central Asia to Europe, 16,000 to 1500 years before present. Advances in Anthropology, 2, No. 2, 87-105], и в простейшем виде симметричной картины мутаций формула следующая:
где:
?
= наблюдаемое среднее число мутаций на маркер в рассматриваемой серии гаплотипов,
? = среднее число мутаций на маркер, с учетом поправки на возвратные мутации.
В примере с DYS393, рассмотренном выше, поправка будет минимальной, поскольку маркер «медленный», и мутаций наблюдается мало, как в «одну», так и в «другую» сторону от исходного положения аллели. Тем не менее, рассчитаем этот поправочный коэффициент, для иллюстрации. Поскольку наблюдаемое среднее число мутаций на маркер равно 0.067, поправочный коэффициент равен 1.0345, и полная запись расчета следующая:
(1+1.069)/2 = 1.0345
Итак, мы наблюдаем 0.067 мутаций на маркер, а на самом деле их 0.069 мутаций на маркер, то есть всего на 3 % больше. Те мутации, что мы теряем, вернулись в исходное положение, и не учитываются при «линейных» подсчетах.
В примере c маркером DYS390, также рассмотренном выше, поправка будет значительной, поскольку маркер «быстрый», и мутаций наблюдается много, как «вверх», так и «вниз» от исходного положения аллели. Рассчитаем этот поправочный коэффициент. Поскольку наблюдаемое среднее число мутаций на маркер равно 0.336, получаем, что поправочный коэффициент равен 1.1997, и полная запись
Итак, мы наблюдаем 0.336 мутаций на маркер, а на самом деле их 0.403 мутаций на маркер, то есть 20 % больше. Те мутации, что мы теряем, вернулись в исходное положение, и не учитываются при «линейных» подсчетах.
Вопрос 62: Насколько точны (или неточны) расчеты в ДНК-генеалогии? – продолжение Вопроса 32.
В сети довольно часто встречаются сомнения в отношении расчетов в ДНК-генеалогии, например, в таком виде (вопрос взят с международного форума DNA Rootsweb, перевод с английского):
? Есть фундаментальная проблема с «научными» расчетами времен жизни общего предка, где расчеты, основаны на частотах встречаемости мутаций разных маркеров. Эти частоты – просто оценки, основанные на встречаемости мутаций в современных гаплотипах. Но когда я смотрю на гаплотипы людей, общий предок которых известен и жил 400–500 лет назад, и я не вижу в их гаплотипах никаких мутаций, то у меня возникают резонные сомнения о надежности расчетов, основанных на мутациях.
Ну что здесь сказать? Когда человек не имеет понятия о том, о чем говорит, и «выходит на публику с сомнениями», когда рассуждают «по понятиям», где надо «по науке», то там может помочь только методичное просвещение. Например, следующее.
Если этот «критик» говорит о 6-маркерных гаплотипах, то там одна мутация образуется в среднем раз в 1/0.0074 = 135 условных поколений, то есть раз в 135х25 = 3375 лет. Если речь о 12-маркерных гаплотипах, то там одна мутация образуется в среднем раз в 1/0.02 = 50 условных поколений, то есть раз в 50х25 = 1250 лет. Если – о 37-маркерных гаплотипах, то там одна мутация образуется в среднем раз в 1/0.09 = 11 условных поколений, то есть раз в 11х25 = 275 лет. Но в среднем – это не обязательно точно раз в 275 лет, как часы. Это может быть мутация через 100 лет, и через 600 лет, и как угодно, но при большом числе гаплотипов это получается в среднем раз в 275 лет. Поэтому критик не понимает того, что просто «гаплотипов» в таких случаях писать нельзя, надо обязательно указывать, какой протяженности гаплотипы. Как мы видим, и в случае 37-маркерных гаплотипов вполне возможно, что за 400–500 лет в них не происходит мутации. Но если речь о 111-маркерных гаплотипах, в которых мутация происходит в среднем раз в 125 лет, то за промежуток времени 400–500 лет мутации должны наблюдаться. Хотя и при бросании монеты бывает, что орел или решка выпадают подряд 4–5, и даже 6 раз. Хотя в среднем выпадают каждый второй раз.
Поэтому принцип должен быть такой, что при рассмотрении и обсуждении мутаций надо всегда исходить из вероятностного характера процесса.
Вообще при обсуждении вопроса в понятиях «точны» или «неточны», надо сначала определиться, «точны» для чего, для какой задачи, которая должна ставиться. Если задача ставится вычислить время рождения или смерти общего предка с точностью до года, то никакие статистические методы для этого в принципе не подходят, включая ДНК-генеалогию. Не подходят и задачи, в которых требуются проводить расчеты с точностью до десятилетий. ДНК-генеалогия решает задачи в первую очередь концептуальные, на уровне открытий, пересмотров старых концепций, и создания концепций новых. Никто же не требует в астрофизике расчета времени «большого взрыва» Вселенной с точностью до сотен лет, и тем более до года, там оценки идут на сотни миллионов и миллиарды лет, и не в сотне лет точности была важность новой концепции.
Например, когда 20 лет назад популяционными генетиками было сообщено, что носители гаплогруппы R1b жили в Европе 30 тысяч лет назад, во времена неандертальцев, то расчетов вообще никаких не делалось, это было предложено «по понятиям», подхвачено, и устоялось в науке. Потребовалось больших трудов убедить научную общественность, что R1b появились в Европе всего лишь около 5000 лет назад, как показали расчеты ДНК-генеалогии[58 - Klyosov, A.A. (2012) Ancient history of the Arbins, bearers of haplogroup R1b, from Central Asia to Europe, 16,000 to 1500 years before present. Advances in Anthropology, 2, No. 2, 87-105.], и это имело концептуальную значимость. В той ситуации было неважно, это 5000±3000 лет назад, 5000±1000 лет назад, или 4800±400 лет назад (последняя величина была показана в расчетах). Таких примеров можно привести много, и каждый раз это был фактический прорыв в науке, прорыв разного масштаба.
Обычно расчеты общих предков выборок в ДНК-генеалогии проводятся с точностью 10–15 %, и причина этого довольно проста – мы постулируем, что величина константы скорости мутации определяется с точностью ±10 %, и тогда точность расчетов по определению не может быть лучше, чем ±10 %. На самом деле сотни и тысячи расчетов показали, что точность определения констант скоростей мутаций составляет примерно 2.5–3.0 %, но для расчетов мы оставляем те же 10 %. Лучше пусть доверительный интервал расчетов будет больше, чем претендовать, что наши расчеты точны, и время от времени подвергаться обвинениям, что другие данные показывают несколько отличающуюся величину. Не все знают, что расчеты погрешностей дело весьма условное, и зависит от закладываемых параметров доверительности. Если мы хотим результаты с доверительностью 95 %, или 99 %, то погрешности при тех же исходных величинах будут уже другими. В ДНК-генеалогии неразумно считать с требуемой доверительностью 95 % или 99 %, потому что тогда мы выходим уже не на концептуальность, а на точность, которой в обычно используемых сериях гаплотипах нет и быть не может. Даже если выборки будут состоять из десятков и сотен тысяч протяженных гаплотипов, в них непременно окажутся «примесные» гаплотипы, из других субкладов, из несимметричных ДНК-линий, да и просто ошибки типирования, которые неизбежны в больших сериях.
Поэтому реальность показывает, что погрешности расчетов ±10 %-15 % это то, из чего надо исходить и соответственно формулировать требования и задачи исследования.
В качестве примеров осложняющих факторов рассмотрим приведенные выше распределения мутаций в маркерах DYS393 и DYS390 в серии из 3466 гаплотипов субклада R1b-L21. Как мы видели, в обоих случаях мутации дают несимметричную картину. В DYS393 – в одну сторону, на понижение аллелей, произошло 85 одношаговых мутаций, в другую, на повышение, произошло 147 мутаций. На самом деле это не мутации несимметричные, а несимметричное распределение потомков по мутациям. Например, среди тех 3466 человек рассматриваемой серии оказалось больше потомков с DYS393 = 14, чем с DYS393 = 12. Причин к такому несимметричному распределению мутаций много. Например, среди всей серии из 3466 гаплотипов могло оказаться непропорционально много потомков того, у кого много веков назад произошла мутация DYS393 = 13 ? 14. Далее, в число этих 3466 человек могли попасть обладатели подчиненных (или вообще других) субкладов, с преобладанием базовой аллели, DYS393 = 14. Если в данную серию попали носители других субкладов с другой базовой аллелью, то такая несимметричность несколько искажает результаты расчетов, как мы покажем ниже на нескольких характерных примерах, и потому результаты расчетов времени до общего предка всегда должны даваться с определенной погрешностью, которая перекрывает искажения. Если это «свои» потомки, то результаты расчетов обычно не искажаются. Этот вопрос пока недостаточно проработан в ДНК-генеалогии с теоретической точки зрения.
В маркере DYS390 в той же серии гаплотипов субклада R1b-L21 мутации тоже дают несимметричную картину. В одну сторону, на понижение аллели на одну единицу, произошло 228 мутаций, в другую, на повышение, произошло 815 мутаций, и в целом на понижение аллелей произошло 281 одношаговый мутаций и на повышение – 884 одношаговых мутаций. Причины несимметричности могут быть те же, что описаны выше. Надо отметить, что в этих двух примерах случайно получилось, что на повышение прошло больше мутаций, чем на понижение, но есть множество обратных примеров, например для того же маркера DYS393 в серии из 269 гаплотипов гаплогруппы N1c1 на понижение произошло больше мутаций (но по сути мутации были почти симметричными). Число аллелей в маркере DYS393:
13 – 12 (то есть аллель 13 встречается в 269 гаплотипах 12 раз)
14 – 248
15 – 8
16 – 1
Всего среди 269 маркеров DYS393 в данной серии суммарно произошло 22 одношаговых мутаций (12 «вниз» и 10 «вверх»), и зная, что константа скорости мутации в маркере DYS393 равна 0.00059 (это было определено по множеству серий гаплотипов разных гаплогрупп), мы можем примерно расчитать, когда жил общий предок рассмотренной серии гаплотипов группы N101 (строго говоря, серии маркеров DYS393):
22/269 = 139 условных поколений назад, то есть примерно 139х25 = 3475±740 лет назад (при стандартном расчете погрешности). Действительно, расчеты по гаплотипам разной протяженности дали время жизни общего предка данной выборки из 269 гаплотипов 3233±326 лет назад (111-маркерные гаплотипы), 3287±333 лет назад (67-маркерные гаплотипы), 346±353 лет назад (37-маркерные гаплотипы), 4127±424 лет назад (25-маркерные гаплотипы). Здесь мы расчеты умышленно не округляем, чтобы не вносить произвол при сопоставлении серии результатов. Мы видим, что расчеты даже по одному маркеру дали вполне приемлемую величину времени до общего предка данной серии гаплотипов. Возможно, это потому, что серия мутаций в данном маркере вполне симметричная.
Если мы посмотрим на DYS390 c его средней величиной числа мутаций на маркер в серии из 3466 гаплотипов субклада R1b-L21, равной 0.4031 (после введения поправки на возвратные мутации), то получим 0.4031/0.0022 = 183 условных поколений, или примерно 4580 лет со времени жизни общего предка субклада R1b-L21. Заметим, что по данным компании YFull (http://www.yfull.com/tree/R1b/) субклад L21 образовался 4500±300 лет назад. Правда, расчет по всем 111 маркерам для 3466 гаплотипов субклада L21 показал, что общий предок современных носителей этого субклада жил 3810±381 лет назад. Это приходится на границу диапазона погрешности расчетов, но в принципе результаты расчетов в их совокупности и в совокупности с данными других независимых расчетов показывают, что общий предок современных носителей субклада R1b-L21 жил действительно на несколько сотен лет позже времени образования самого субклада; потомство от более ранних предков не выжило.
Пример того, что во многих случаях несимметричность в распределении мутаций в маркерах выражается в том, что на повышение проходит меньше мутаций, чем на понижение (то есть обратно тому, что наблюдается в маркере DYS390 в серии гаплотипов субклада R1b-L21), является серия из 4769 гаплотипов гаплогруппы R1a. Там число аллелей в маркере DYS390 выглядит следующим образом:
22 – 5
23 – 66
24 – 755
25 – 3544
26 – 383
27 – 16
Считая, что все мутации одношаговые, находим, что в 4769 маркерах DYS390 прошло 1317 мутаций, получаем, что среднее число мутаций на маркер равно 0.276. Это число не является корректным, потому что мы знаем, что среди тех 4769 гаплотипов было множество, относящихся к разным субкладам, каждый из которых имеет разную историю и своих общих предков. Поэтому любые расчеты с этими числами будут являться «поверхностными», очень приблизительными. Задача ДНК-генеалогии – проводить «рассечения» серий гаплотипов на ветви, семейства, группы, и при соответствующей поставленной задаче проводить их отдельные и независимые рассмотрения.
Подобные расчеты по всем 111 маркерам (или тому числу маркеров, которое было выбрано для рассматриваемых гаплотипов) после усреднения дает «возраст» общего предка рассматриваемой выборки гаплотипов, при условии, что общий предок был один, согласно соответствующим критериям ДНК-генеалогии.
Не нужно думать, что все 111 маркеров дадут одну и ту же величину «возраста» до общего предка, например, как 4580 лет в случае маркера DYS390 в серии гаплотипов субклада R1b-L21. Как раз в данном конкретном случае датировка маркера оказалась несколько завышенной из-за несимметричности распределения мутаций. Но по одному маркеру никогда возраст до общего предка не считают. В данном случае для 3466 гаплотипов в 111 маркерном формате для статистических расчетов суммарно имеются 384728 аллелей, причем расчет с применением калькулятора Килина-Клёсова (см. ниже) ведется и по каждому из маркеров, «по вертикали», и по всем мутациям по всем гаплотипам, «по горизонтали», как по «квадратичному» методу, в котором поправки на возвратные мутации уже учтены, так и «линейным методом», с введением поправок на возвратные мутации, а также и по разным длинам гаплотипов. В итоге калькулятор выдает результат по каждому варианту расчета, так что можно сравнивать и смотреть, нет ли систематических отклонений. В данном случае, по 3466 гаплотипам, получилось (лет до общего предка субклада R1b-L21):
3810±381 по 111-маркерным гаплотипам, линейный метод
4197±274 по 111-маркерным гаплотипам, квадратичный метод
3841±384 по 67-маркерным гаплотипам, линейный метод
3576±358 по 37-маркерным гаплотипам, линейный метод
3571±358 по 25-маркерным гаплотипам, линейный метод
3679±369 по 17-маркерным гаплотипам, линейный метод
3499±352 по 12-маркерным гаплотипам, линейный метод