Добавить в цитаты Настройки чтения

Страница 32 из 46

Еще пример, для особенно древнего общего предка, на этот раз гаплогруппы I2, который жил 9575±960 лет назад. В маркере DYS426 в серии из 244 гаплотипов накопилось всего 8 мутаций, поскольку это один из самых «медленных» маркеров, его константа скорости мутации равна 0.00009 мутаций на маркер за условное поколение. Получаем, что общий предок жил примерно 8/244/0.00009 = 364 условных поколений назад, или примерно 364х25 = 9100 лет назад. Это опять в пределах погрешности измерений, поскольку величина 9575±960 лет, показанная выше, была рассчитана по всем 244 гаплотипам в 111-маркерном формате.

Надо добавить, что величины констант скоростей мутаций определяли при изучении многих тысяч гаплотипов. В первой обширной статье по этой теме[54], опубликованной в 2011 году, и подводящей итоги четырехлетних исследований, рассматривали 3160 гаплотипов, из них 2488 гаплотипов в 67-маркерном формате, а в недавней статье[55] рассматривалисьь уже 11850 гаплотипов в 111-маркерном формате.

Вопрос 54: Как рассчитывают погрешности в ДНК-генеалогии?

ОБЩАЯ ОТНОСИТЕЛЬНАЯ ПОГРЕШНОСТЬ, важная величина, указывающая на доверительный интервал, или надежность определения расстояния до времени жизни общего предка рассматриваемой популяции. По правилам математической статистики, расчет погрешности обычно производится для «одной сигма» или «двух сигма», что соответствует 68 % и 95 % доверительному интервалу, соответственно. Для одной сигма берется обратная величина квадратного корня из общего числа мутаций в серии гаплотипов, возводится в квадрат, к ней прибавляется 0.01 (это квадрат средней погрешности величины константы скорости мутации, при принимаемой ее погрешности ±10 %, то есть 0.1), и из полученной суммы извлекается квадратный корень.

Например, при 100 мутациях (от базового гаплотипа) в серии гаплотипов получаем:

Таким образом, погрешность расчетов для 100 мутаций в серии равна ±14.14 %, или, округленно, 14 %. Это – для доверительного интервала 68 % (одна сигма).

Для доверительного интервала 95 % (два сигма) полученная величина удваивается, то есть погрешность расчетов составляет ±28 %. Но опыт показывает, что для расчетов реальных, документированных генеалогий, задавание доверительного интервала в одну сигма является реалистичным. Дело в том, что требование 95 %-ной точности нереально для ограниченных серий гаплотипов. Более того, после рассмотрения многих сотен экспериментальных серий гаплотипов выяснилось, что закладываемая погрешность для констант скоростей мутаций ±10 % является завышенной, на практике она не превышает ±2.5 %. Поэтому при 100 мутациях в серии гаплотипов погрешность при одной сигме составляет не ±14.14 %, а ±10.31 %.

Тем не менее, мы рекомендуем (и делаем это сами) давать результаты расчетов при завышенной погрешности, как описано выше. Лучше так, чем быть обвиненными в завышении «точности расчетов».

Погрешности рассчитываются по тем же правилам для количества мутаций и для скоростей мутаций в отдельных маркерах, и в гаплотипах, содержащих любое количество маркеров. Например, в маркере DYS391 для серии из 275 гаплотипов гаплогруппы N1c1 наблюдается 59 мутаций. По правилам статистики при одной сигма эти 59 мутаций на самом деле соответствуют 59±8 мутаций, так что неопределенность, или погрешность начинаются уже здесь. Погрешность получена как обратная величина квадратного корня, переведенная в величину 13.02 %. Если переводить это число мутаций в среднее число мутаций на маркер, получаем 59/275 = 0.2145, но погрешности целесообразно записывать уже в конце расчетов, чтобы не усложнять вычисления. С учетом поправки на возвратные мутации (пояснено ниже) получаем, что среднее число мутаций на маркер равно 0.2402, и поскольку значение константы скорости мутации для маркера DYS391 равно 0.0022, получаем, что «возраст» для маркера DYS391 для данной серии гаплотипов равен 0.2402/0.0022 = 96 условных поколений, или 2400 лет. Погрешность здесь уже больше, чем рассчитанные выше ±13.02 %, потому что к ней добавляется погрешность определения константы скорости мутации, которая в данном случае не менее ±30 %. В итоге обратную величину квадратного корня из 59 возводим в квадрат (получая 0.01695), прибавляем 0.09 (квадрат погрешности в определении константы скорости мутации), извлекаем квадратный корень из полученной суммы, и находим, что погрешность (которое еще называют средним квадратичным отклонением) равна в данном случае ±32.7 %. Мы видим, что при введение в расчеты константы скорости мутации погрешность более чем удвоилась. Получаем, что маркер DYS391 в данной серии указывает на «возраст» выборки 2400±800 лет.

Но когда расчет ведется по всем маркерам сразу, а не его индивидуальным величинам, то число аллелей и мутаций в них идет на тысячи, и погрешность получаемого «возраста» резко снижается, но никогда не становится меньше, чем погрешность определения константы скорости мутации. Последняя обычно принимается за ±10 %, хотя определенно меньше этой величины, как пояснено выше.

Вопрос 55: Что такое «снип» в ДНК-генеалогии?

СНИП, «гаплогруппо-образующая мутация», от английского сокращения SNP (Single Nucleotide Polymorphism), практически необратима, происходит, как правило, на одном нуклеотиде, превращая один нуклеотид в другой, несвойственный для данной последовательности ДНК. Это приводит к появлению своебразной «метки», которая практически навсегда наследуется потомками. Именно поэтому каждый род (в понятиях ДНК-генеалогии) носит характерную метку и может быть надёжно и количественно отличим один от другого. Снипы обозначают индексами, например, Z280 (это – «входная» мутация для ДНК большинства этнических русских гаплогруппы R1a), M343 («входная» мутация в гаплогруппу R1b), L21, что эквивалентно снипу S145 (мутация, определяющая один из наиболее распространных субкладов в центральной и западной Европе), и так далее. Первая буква снипа показывает, в каком научном коллективе снип идентифицирован. Наиболее используемые индексы следующие:

М, лаборатория под руководством Peter Underhill, Stanford University (США);

Р, лаборатория, руководимая Michael Hammer, University of Arizona (США);

S, лаборатория, руководимая James F. Wilson, Edinburgh University (Шотландия);

L, исследовательский центр под названием Family Tree DNA's Genomics Research Center (США).

U, университет центральной Флориды (Ly



V, университет La Sapienza, Rosaria Scozzari and Fulvio Cruciani (Рим, Италия);

CTS, лаборатория Chris Tyler-Smith, The Wellcome Trust Sanger Institute, Hinxton (Англия)

Page, David C. Page, Whitehead Institute for Biomedical Research

Z и DF, международная группа независимых исследователей, работающих с геномными базами данных

А, Thomas Krahn, YSEQ.net, Houston, Texas (США)

FGC, Full Genomes Corp. of Virginia and Maryland (США)

Y и YP, группа независимых исследователей Y Full Team, работающих с геномными данными

BY, группа Big Y, компания Family Tree DNA, Houston, Texas (США)

F, лаборатория Li Jin, Fudan University, Shanghai (Китай)

KMS, группа российских и международных исследователей

N, лаборатория биоинформатики, Institute of Biophysics, Chinese Academy of Sciences, Beijing (Китай)

PK, Biomedical and Genetic Engineering Laboratories, Islamabad (Пакистан).

Вопрос 56: Как измеряют скорости мутаций в ДНК-генеалогии?

54

Rozhanskii, I.L., and Klyosov, A.A. (2011) Mutation rate constants in DNA genealogy (Y Chromosome). Advances in Anthropology, 1, No.2, 26–34.

55

Клёсов, А.А. и Килин, В.В. (2015) Калькулятор Килина-Клёсова для расчета времен до общих предков (TMRCA): новое издание. Вестник Академии ДНК-генеалогии, т.8, № 3, стр. 321-375