Добавить в цитаты Настройки чтения

Страница 36 из 46



22/269 = 139 условных поколений назад, то есть примерно 139х25 = 3475±740 лет назад (при стандартном расчете погрешности). Действительно, расчеты по гаплотипам разной протяженности дали время жизни общего предка данной выборки из 269 гаплотипов 3233±326 лет назад (111-маркерные гаплотипы), 3287±333 лет назад (67-маркерные гаплотипы), 346±353 лет назад (37-маркерные гаплотипы), 4127±424 лет назад (25-маркерные гаплотипы). Здесь мы расчеты умышленно не округляем, чтобы не вносить произвол при сопоставлении серии результатов. Мы видим, что расчеты даже по одному маркеру дали вполне приемлемую величину времени до общего предка данной серии гаплотипов. Возможно, это потому, что серия мутаций в данном маркере вполне симметричная.

Если мы посмотрим на DYS390 c его средней величиной числа мутаций на маркер в серии из 3466 гаплотипов субклада R1b-L21, равной 0.4031 (после введения поправки на возвратные мутации), то получим 0.4031/0.0022 = 183 условных поколений, или примерно 4580 лет со времени жизни общего предка субклада R1b-L21. Заметим, что по данным компании YFull (http://www.yfull.com/tree/R1b/) субклад L21 образовался 4500±300 лет назад. Правда, расчет по всем 111 маркерам для 3466 гаплотипов субклада L21 показал, что общий предок современных носителей этого субклада жил 3810±381 лет назад. Это приходится на границу диапазона погрешности расчетов, но в принципе результаты расчетов в их совокупности и в совокупности с данными других независимых расчетов показывают, что общий предок современных носителей субклада R1b-L21 жил действительно на несколько сотен лет позже времени образования самого субклада; потомство от более ранних предков не выжило.

Пример того, что во многих случаях несимметричность в распределении мутаций в маркерах выражается в том, что на повышение проходит меньше мутаций, чем на понижение (то есть обратно тому, что наблюдается в маркере DYS390 в серии гаплотипов субклада R1b-L21), является серия из 4769 гаплотипов гаплогруппы R1a. Там число аллелей в маркере DYS390 выглядит следующим образом:

22 – 5

23 – 66

24 – 755

25 – 3544

26 – 383

27 – 16

Считая, что все мутации одношаговые, находим, что в 4769 маркерах DYS390 прошло 1317 мутаций, получаем, что среднее число мутаций на маркер равно 0.276. Это число не является корректным, потому что мы знаем, что среди тех 4769 гаплотипов было множество, относящихся к разным субкладам, каждый из которых имеет разную историю и своих общих предков. Поэтому любые расчеты с этими числами будут являться «поверхностными», очень приблизительными. Задача ДНК-генеалогии – проводить «рассечения» серий гаплотипов на ветви, семейства, группы, и при соответствующей поставленной задаче проводить их отдельные и независимые рассмотрения.

Подобные расчеты по всем 111 маркерам (или тому числу маркеров, которое было выбрано для рассматриваемых гаплотипов) после усреднения дает «возраст» общего предка рассматриваемой выборки гаплотипов, при условии, что общий предок был один, согласно соответствующим критериям ДНК-генеалогии.

Не нужно думать, что все 111 маркеров дадут одну и ту же величину «возраста» до общего предка, например, как 4580 лет в случае маркера DYS390 в серии гаплотипов субклада R1b-L21. Как раз в данном конкретном случае датировка маркера оказалась несколько завышенной из-за несимметричности распределения мутаций. Но по одному маркеру никогда возраст до общего предка не считают. В данном случае для 3466 гаплотипов в 111 маркерном формате для статистических расчетов суммарно имеются 384728 аллелей, причем расчет с применением калькулятора Килина-Клёсова (см. ниже) ведется и по каждому из маркеров, «по вертикали», и по всем мутациям по всем гаплотипам, «по горизонтали», как по «квадратичному» методу, в котором поправки на возвратные мутации уже учтены, так и «линейным методом», с введением поправок на возвратные мутации, а также и по разным длинам гаплотипов. В итоге калькулятор выдает результат по каждому варианту расчета, так что можно сравнивать и смотреть, нет ли систематических отклонений. В данном случае, по 3466 гаплотипам, получилось (лет до общего предка субклада R1b-L21):

3810±381 по 111-маркерным гаплотипам, линейный метод

4197±274 по 111-маркерным гаплотипам, квадратичный метод

3841±384 по 67-маркерным гаплотипам, линейный метод

3576±358 по 37-маркерным гаплотипам, линейный метод

3571±358 по 25-маркерным гаплотипам, линейный метод

3679±369 по 17-маркерным гаплотипам, линейный метод

3499±352 по 12-маркерным гаплотипам, линейный метод

4161±421 по 6-маркерным гаплотипам, линейный метод

Как видим, расчеты дали вполне удовлетворительное совпадение в пределах погрешности измерений, даже для коротких 12- и 6-маркерных гаплотипов.

Человек сторонний, не очень знакомый со статистикой, скажет – как же так, расчеты по одному маркеру, DYS390, дали примерно 4580 лет со времени жизни общего предка субклада R1b-L21, а расчеты по всем 111-маркерным гаплотипам, с общим числом аллелей 384728, дали 3810±381 или 4197±274 лет, по линейному и квадратичному методам, то есть заметно ниже. Но в этом статистика и заключается, что мутации неупорядоченные, по отдельности различаются, но все они группируются вокруг некого «центра», «ядра», и при усреднении математический аппарат дает среднюю величину и величину погрешности расчетов, или среднее квадратичное отклонение при определенных доверительных интервалах. В данном случае DYS390 – это всего один маркер, а их сто одиннадцать. Но даже в 6-маркерных гаплотипах, куда DYS390 входит, усреднение по всем шести дает датировку 4161±421 лет, то есть датировка по одному DYS390 входит в диапазон погрешностей. А датировка по 6-маркерному гаплотипу входит в диапазон погрешностей для серии 111-маркерных гаплотипов.

Вопрос 63: Как проводились расчеты констант индивидуальных скоростей мутаций для всех 111 маркеров?



Это – результат большой работы, которая проводилась с 24 сериями 111-маркерных гаплотипов практически всех гаплогрупп, для которых в базах данных эти гаплотипы были числом хотя бы в несколько десятков. Для большинства гаплогрупп расчетные серии содержали сотни гаплотипов – помимо упомянутых ранее 3466 гаплотипов субклада R1b-L21, были 859 и 976 111-маркерных гаплотипов гаплогруппы R1a (разные серии), 829 гаплотипов гаплогруппы R1b-Uio6, 968 гаплотипов гаплогруппы I1, 661 гаплотипов гаплогруппы J, 1417 гаплотипов гаплогруппы J2, и так далее, общим числом П850 гаплотипов в 111-маркерном формате. При этом проверялась сходимость расчетов гаплотипов разных форматов и расчетов разными методами. Результаты этой работы опубликованы в Вестнике Академии ДНК-генеалогии в 2015 году[59].

Расчеты констант скоростей мутаций в маркерах производятся на основании их распределений в больших сериях гаплотипов. Чем меньше константа скорости мутации данного маркера, тем, естественно, меньше мутаций за определенное время, в качестве которого обычно рассматривается время, прошедшее от общего предка. Если взять, например, серию из 3466 гаплотипов субклада R1b-L21, к которой мы здесь неоднократно обращались именно потому, что она одна из наиболее репрезентативных по численности гаплотипов, то маркере DYS472 там всего пять мутаций:

7 – 1 (то есть аллель 7 встречается в 3466 маркерах DYS472 всего один раз)

8 – 3461 раз

9 – 4 раз

В маркере DYS393 в той же серии уже 232 мутации:

11 – 2

12 – 81

13 – 3237

14 – 145

15 – 1

В маркере DYS390 – 1165 мутаций:

21 – 3

22 – 22

23 – 228

24 – 2364

25 – 815

26 – 33

27 – 1

Поскольку время от общего предка во всех трех случаях одно и то же, то даже не зная его, уже можно заключить, что константы скорости мутаций должны отличаться друг от друга в пропорции 5: 232: 1165 (числа – количества мутаций от базового маркера для трех маркеров), или, пропорционально, 1: 46: 233 Это – тогда, когда нет осложняющих факторов, которые, впрочем, есть всегда. Среди этих факторов – примесь посторонних гаплотипов, почти неизбежная при массовых тестированиях, перекошенная серия гаплотипов, когда одних родственников (даже отдаленных) в серии больше, чем других, когда в серии присутствуют представители нижестоящих субкладов, причем одних субкладов больше, чем других, и так далее. Вывод такой, что одной серией гаплотипов при расчетах констант скоростей мутаций ограничиваться нельзя, надо проводить рассмотрение многих серий гаплотипов из разных гаплогрупп, выяснять по возможности причины различий, и усреднять полученные константы скоростей мутаций по разным сериям. В некоторых сериях отклонения буквально гипертрофированные – например, в той же серии R1b-L21 оказалось несколько сотен гаплотипов дочернего субклада R1b-M222, у которого характерная величина аллели DYS392=14 вместо обычной DYS392=13. Если этого не знать или не заметить, то число мутаций в медленном маркере DYS392 окажется завышенным на сотни мутаций, и формально рассчитанная «константа скорости» окажется несуразно высокой.

59

Клёсов, А.А., Килин, В.В. (2015) Калькулятор Килина-Клёсова для расчета времен до общих предков (TMRCA): новое издание. Вестник Академии ДНК-генеалогии, т. 8, № 3, стр. 321–375.