А люди берут три-четыре коротких гаплотипа, а то и два, и удивляются, почему результаты «бегают по всему полю».
Вопрос 74: Автоматический калькулятор Килина-Клёсова
Давайте теперь проверим, какой результат ближе к реальности в случае трех коротких гаплотипов, рассмотренных выше – расчет по линейному методу (1325±780 лет до общего предка) или квадратичному (825±480 лет до общего предка). Кликаем на линк, ведущий к калькулятору Килина-Клёсова[85 - Клёсов, А.А., Килин, В.В. (2015) Калькулятор Килина-Клёсова для расчета времен до общих предков (TMRCA): новое издание. Вестник Академии ДНК-генеалогии, т. 8, № 3, стр. 321–375.] на сайте http://dna-academy.ru/kilm-klyosov/ (http://dna-academy.ru/kilm-klyosov/), вводим все три серии аллелей под соответствующими маркерами, и через долю секунды получаем результат – 1304±764 лет до общего предка линейным методом и 863±456 лет – квадратичным.
Мы видим, что при столь малом числе гаплотипов и мутаций датировки нестабильны. Но в такой ситуации я бы рекомендовал склоняться к линейному методу, поскольку расчет по трем аллелям, пусть и для 12 маркеров, вряд ли является удовлетворительным. Но еще лучше – просто давать обе датировки, поясняя, какая получена каким методом.
Рис. 14. Расчет времени до общего предка для демонстрационной серии из трех гаплотипов в 12-маркерном формате на калькуляторе Килина-Клёсова. Соответствующие колонки показывают 1304±764 лет до общего предка для линейного метода, и 863±456 лет для квадратичного метода, что, впрочем, совпадает в пределах погрешности расчетов. Остальными колонками следует пренебречь.
Как работает калькулятор Килина-Клёсова? Он многофункциональный, и здесь нет возможности объяснять все его функции, кроме основной – быстро производить расчеты по гаплотипам от любых коротких (вплоть до единичных, отдельных маркеров) до 111-маркерных, в количествах до 10 тысяч гаплотипов. Калькулятор моментально, в ходе расчетов, определяет степень диперсии аллелей по каждому маркеру, и показывает ее количественную величину. Можно выставлять пороговую величину степени дисперсии, тогда калькулятор выбрасывает соответствующие маркеры из расчетов. Это особенно полезно, когда серия гаплотипов содержит включения посторонних гаплотипов, или нижестоящих субкладов, у которых некоторые маркеры имеют другие значения, чем у основной серии. Например, в серии гаплотипов гаплогруппы R1a значение маркера DYS392 обычно имеет величину 11, а в отдельной ветви «Старая европейская ветвь» это значение равно в основном (или исключительно) 13. Калькулятор «знает», что маркер DYS392 настолько «медленный» (константа скорости мутации равна 0.0004 мутаций на маркер на условное поколение), что, например, для тысячи гаплотипов в среднем должно наблюдаться примерно 40 мутаций за сто условных поколений, потому что 40/1000/0.0004 =100 условных поколений. При увеличении количества аллелей DYS393=13 в серии гаплотипов, дисперсия возрастает и в итоге превышает граничную величину 2.6, обычно используемую при расчетах. При величине 2.61 маркер блокируется, оставляя все остальные – незаблокированные – функциональными. Если в рассматриваемой серии гаплотипов блокируются сразу несколько маркеров, то это указание на то, что что-то с выборкой не так.
Поправка на возвратные мутации в калькуляторе не вводится, она уже заложена в самом калькуляторе, как для линейного метода, так и квадратичного. Калькулятор на 111 маркеров может использоваться для расчетов гаплотипов в любом формате, включая 67-маркерные, но для удобства нами создана серия калькуляторов для 17-маркерных и для самых медленных, 22-маркерных гаплотипов.
Калькулятор может быть использован для комбинаций серий гаплотипов для любых форматов. Это возможно потому, что в квадратичном методе он считает «по вертикали», по маркерам, а в линейном – «по горизонтали», по гаплотипам.
Вопрос 75: Поясните, пожалуйста, суть логарифмического метода в ДНК-генеалогии.
Логарифмический метод – самый простой в исполнении. Несколько примеров расчетов логарифмическим методом были даны выше. Суть его заключается в том, что для серии гаплотипов берется отношение общего числа гаплотипов в серии к числу идентичных (базовых) гаплотипов в той же серии, далее берется натуральный логарифм этого отношения, и делится на константу скорости мутации в данном гаплотипе. После этого вводится поправка на возвратные мутации, поскольку они возвращают мутированные гаплотипы обратно в исходные немутированные, и тем самым занижают датировку времени жизни общего предка. Поправка на возвратные мутации рссчитывается исходя из числа базовых гаплотипов в серии.
Чем больше по численности серия гаплотипов, происходящих от одного предка, тем расчет времени до этого предка точнее. И тем больше экономия времени при расчетах, поскольку логарифмический метод не требует подсчета числа мутаций в гаплотипах. Например, если серия из сотни гаплотипов, скажем, 37-маркерных, содержит четыре одинаковых (то есть базовых) гаплотипа, то даже и без подсчета мутаций в гаплотипах можно сразу сказать, что общий предок этих ста гаплотипов жил 925±105 лет назад, потому что натуральный логарифм отношения 100/4, поделенный на константу скорости мутации для 37-маркерных гаплотипов (0.09 мутаций на гаплотип на условное поколение в 25 лет) равен 36 ? 37 условных поколений, то есть общий предок этой сотни гаплотипов жил примерно 925 лет назад. Поскольку для четырех базовых гаплотипов погрешность расчетов составляет ±51 % (как это расчитывается – приводилось выше на примере четырех мутаций в серии гаплотипов), то общий предок для данной серии из ста гаплотипов жил 925±470 лет назад. Но, как уже обсуждалось выше, в любом случае, в том числе и в искаженных, неоднородных сериях, почти всегда можно найти одинаковые гаплотипы, и деление общего числа гаплотипов на случайное количество одинаковых гаплотипов всегда даст какое-то число, часто не имеющее отношения к числу лет или поколений до общего предка. Поэтому необходим критерий, что расчетные величины времен до общего предка действительно имеют смысл, и что серия гаплотипов действительно происходит от одного общего предка.
Этим критерием является совпадение (в пределах погрешности расчетов) времени до общего предка, рассчитанное как линейным (или квадратичным), так и логарифмическим методами. Например, если число мутаций во всех ста 37-маркерных гаплотипах будет равно, например, 324 (или близко к тому), тогда 324/100/0.09 = 36 ? 37 условных поколений, то есть ровно тот же промежуток времени до общего предка. Совпадение времен до общего предка для «логарифмического» и «линейного» метода (в первом мутации не считаются, во втором считаются) свидетельствует, что закономерности образования мутаций в гаплотипах следуют кинетике первого порядка, что в свою очередь означает, что все сто гаплотипов действительно произошли от одного прямого общего предка. Популяционная генетика такими подходами не пользуется, они ей чужды по ряду причин, как обсуждалось выше.