Стоит четырехэтажный дом, в каждом этаже по
восьми окон, на крыше – два слуховых окна и две
трубы, в каждом этаже по два квартиранта. А те-
перь скажите, господа, в каком году умерла у
швейцара бабушка?
Я. Гашек
Несмотря на хрестоматийную нелепость постановки Швейком этой задачи, она может быть успешно решена моделированием, использующим теорему Байеса. А именно, можно показать, что распределение вероятностей того, что в доходном доме столько-то стен, окон и дымоходов, не влияет на распределение периода жизни родственников швейцаров – указанные события независимы. Но в науке отрицательный результат – тоже результат, и методы, которыми он получен, определенно имеют ценность.
P(M|D) = P(D|M)P(M)/P(D)
где P(M|D) – апостериорная вероятность корректности некоторой модели M при конкретных экспериментальных данных D;
P(M) – ее априорная вероятность, независимая от нашего эксперимента (например, известная из литературы скорость мутирования);
P(D|M) – вероятность, что наши экспериментальные данные корректны при условии истинности
модели M;
И наконец, P(D) – вероятность того, что данные корректны вообще, независимо от каких-либо условий.
Априорные вероятности P(M) мы задаем на входе анализа в виде распределения – например, можем предположить, что скорость мутирования сайтов ДНК равномерно распределена на некотором интервале [0, a] или что все теоретически возможные деревья равновероятны. Вычисление вероятности P(D|M) достаточно трудоемко, особенно если включает в себя реконструкцию всех предковых гаплотипов. К счастью, последнее из выражений – знаменатель P(D) – константно и игнорируется.
Например, на вход программы подаются экспериментальные данные (обозначим их D), а также основные параметры модели (обозначим ее M) – вероятность замены одного нуклеотида на другой, априорное распределение возраста клады (TMRCA), априорное предположение о равновероятности всех возможных деревьев и т.д. Результатом применения байесовского метода должно стать получение апостериорного распределения для каждого интересующего нас параметра M. Априорное распределение не обязано быть правильным – это лишь стартовая точка, с которой программа начнет свою работу. Но полученное апостериорное распределение будет оптимально соответствующим экспериментальным данным. А получив распределение интересующего нас параметра, мы легко сможем рассчитать и его наиболее вероятное значение, и доверительный интервал.
Программа получает исходные данные и генерирует начальные значения параметров M в соответствии с переданными ей априорными распределениями. А именно: строит стартовое дерево; выполняет разметку нуклеотидных состояний на его внутренних узлах; вычисляет вероятность получения данных D, т.е. известных нам гаплотипов на листьях дерева, в предположении истинности M; а затем с учетом известной ей априорной вероятности данного значения M программа получает P(M|D) по приведенной выше формуле. На практике обычно вычисляется не вероятность P(M|D), а некая функция f(M|D), пропорциональная плотности искомого распределения, поскольку важно не точное значение вероятности модели, а сравнение значений в различных точках.
Во время первых итераций программа должна определить, нет ли противоречия между исходными данными и параметрами модели. Далее программа вызывает минорные возмущения текущей модели Mi, например одномерные, и переходит к следующей модели Mi + 1, оценивая ее апостериорную вероятность. Некоторые программы дают пользователю возможность выбирать типы и характеристики возмущений M (“операторов”). Но в целом изменениями управляет алгоритм Метрополиса–Гастингса: его реализация должна гарантировать, что в процессе итерации возмущений M будет найдено единственное распределение вероятностей (т.е. имеет место “сходимость” к распределению), и притом за как можно меньшее число шагов. Количество итераций (“длину цепи”) пользователь определяет сам, и на выходе программа сообщает количество независимых состояний M. Их обычно во много раз меньше, чем было выполнено всего итераций – по причине того, что соседние состояния M мало отличаются друг от друга и потому находятся в зависимости.
Выходные данные байесовских программ обычно представляют собой журнал результатов, куда для каждой итерации записаны все параметры M и полученное для нее апостериорное значение вероятности. Соответственно, можно отобрать результаты с высокими вероятностями и среди этих результатов найти среднее для каждого параметра, в том числе средний возраст интересующего нас кластера гаплотипов, консенсусное филогенетическое дерево и т.д. О доверительном интервале полученных значений можно судить, выбрав наименьший интервал изменения некоторого признака, представленный в заданной доле результатов, – например, промежуток возраста TMRCA от a до b лет назад, в который попадает 95% построенных деревьев. Также может быть интересным сравнение входных (априорных) и выходных (апостериорных) распределений параметров модели: они не обязаны совпадать.
Приведем пример использования программы BEAST [33], которая сейчас наиболее широко используется для генетических датировок. Байесовский метод был применен к данным полного секвенирования Y-хромосомы у 23 адыгейцев.
Семья A – 4 образца; гаплогруппа G2.
Семья H – 1 образец; гаплогруппа G2; есть версия о родстве с семьей A.
Семья B – 5 образцов; гаплогруппа G2; общий предок родился 110 лет назад.
Семья С – 7 образцов; гаплогруппа G2; общий предок родился 140 лет назад.
Семья D – 2 образца; гаплогруппа G2.
Семья E – 1 образец; гаплогруппа G2.
Семья G – 3 образца; гаплогруппа J2.
Были заданы всего несколько априорных параметров модели, отличных от предлагаемых по умолчанию: распределение скорости мутирования положили равномерным вокруг литературного значения, а для более точного ее определения задали калибровку по возрасту семей B и C, время жизни основателей которых известно документально (рис. 5).
Проведя 20 миллионов итераций, получили ряд результатов, из которых для краткости приведем только два – выходное (апостериорное) распределение возраста всего дерева (рис. 6) и консенсусное дерево с возрастами кластеров (рис. 7).
Средний возраст дерева составил 52 тыс. лет (рис. 6). Все изученные образцы относятся только к гаплогруппам G и J, поэтому дерево, построенное по этим образцам, должно укореняться в точке разделения этих гаплогрупп. И действительно, литературные данные о времени разделения гаплогрупп G и J, полученные для глобального филогенетического дерева [18], дают такие же оценки (50–55 тыс. лет назад). Байесовское моделирование истории гаплогрупп дало нам не только датировку возраста, но и доверительный интервал: оказалось, возраст корня дерева для 95% состояний моделей укладывается в промежуток 26000–82000 лет назад. Данные границы шире, чем те, которые обычно получаются методом ρ-статистики: последний сильно зависит от дисперсии длины пути от корня до листьев дерева, а длина пути от глубокого узла до листьев обычно меняется слабо, поэтому величина ошибки ρ часто оказывается неправдоподобно низкой.
Согласно консенсусному дереву (рис. 7), семейное предание о родстве A и H оказалось правдоподобным, их общий предок мог жить 345 лет назад (разброс 140–580 лет). Сложнее ситуация с историей семьи G – при среднем возрасте общего предка 450 лет назад доверительный интервал составляет 170–770 лет назад, что не позволяет сделать однозначного вывода о достоверности фамильного предания о родстве изученных людей.
За рамками данного обзора остается обсуждение многих интересных вопросов, например, разбиение ДНК-сайтов по группам с различной скоростью мутирования или же возможное различие скоростей мутирования одного и того же сайта в разных ветвях дерева, упомянутые выше в разделе “Допущения”. Современные программы, основанные на байесовском моделировании, позволяют включать подобные параметры и учитывать множество других фактов, накопленных при изучении мутаций.
Функциональность и степень поддержки другого байесовского пакета, BATWING, несколько ниже, чем у BEAST. Но BATWING чаще используется для работы с STR-мутациями, так как предлагает предопределенные модели эволюции микросателлитов, в то время как BEAST для работы с STR нуждается в более тонкой настройке. Интересный пример использования BATWING можно найти в работах [34, 35], где набор SNP расширен за счет использования “виртуальных мутаций”, маркирующих кластеры STR-гаплотипов.
Под “историческим событием” в контексте рассматриваемой области исследований будем понимать только события истории населения: лишь события, приведшие к значительным изменениям в демографии, могут оставить свой след в генофонде. Поэтому открытие Америки Колумбом таким событием не является (приплыл и уплыл обратно, не оставив больших следов в генофонде), а вот походы Кортеса и Писарро – являются, поскольку они привели и к сокращению численности индейского населения, и к массовым смешанным бракам европейцев с индианками.
Возникает вопрос, можно ли с помощью генетических датировок определять время исторических событий? И, более широко, можно ли реконструировать историю популяций исходя из филогенетических соотношений гаплотипов?
Поспешность с положительным ответом на этот вопрос чревата…
Дело в том, что реконструкции филогенетических деревьев гаплотипов в целом и датировки кластеров гаплотипов в частности описывают генетические линии (хромосомы, гаплотипы, циркулирующие в популяциях), а вовсе не сами эти популяции. И, как правило, история линий (возникновение новых в результате мутаций или их исчезновение), и история популяций – это два совершенно разных процесса, идущих параллельно и зачастую независимо друг от друга. Например, популяция может целиком переселиться на новое место, а гаплотипы внутри нее продолжают возникать и исчезать точно так же, как если бы она оставалась на месте; или же популяция может поделиться на две таким образом, что гаплотипы внутри каждой из них никак не изменятся, и т.д. Поэтому в общем случае знания о гаплотипах еще ничего не говорят о популяциях.
К счастью, из всякого правила есть исключения, и бывают такие события в истории популяций, которые приводят к характерным изменениям в составе и соотношении гаплотипов. К числу таких событий относятся:
Резкое сокращение численности (случай 1) приводит к падению разнообразия гаплотипов; резкое увеличение (случай 2) – к одновременному порождению несколькими одиночными гаплотипами крупных кластеров; смешение (случай 3) тоже увеличивает разнообразие, но, в отличие от случая 2, гаплотипы будут не родственны друг другу; наконец, отпочкование с дальней миграцией (4) приводит к тому, что гаплотипы дочерней популяции представляют собой кластеры гаплотипов, происходящие от гаплотипов материнской популяции.
Вариант (4) случается всего реже, но выявляется всего достовернее и часто связан с важнейшими событиями. Например, реконструкция глобального филогенетического дерева человечества показывает, что гаплотипы коренного населения Америки представляют собой кластеры, сформировавшиеся из гаплотипов, распространенных в Евразии; а гаплотипы Евразии, в свою очередь, являются побегами одной–двух из множества африканских ветвей. Этого достаточно, чтобы реконструировать ход заселения планеты человечеством: первоначальный ареал – Африка, оттуда миграция в Евразию, а оттуда – в Америку. В этом случае, как и во многих подобных, работает вавиловский принцип: наибольшее генетическое разнообразие сохраняется на прародине (прародиной для населения Америки является Евразия, а для населения Евразии – Африка).
Примером реконструкции случаев (1) и (2) служит исследование глобального филогенетического дерева Y-хромосомы человечества [18]. Выявив все основные кластеры и датировав их, авторы определили, в какие периоды кластеров возникало много (следовательно, в эти периоды население быстро росло), а в какие численность была стабильной или сокращалась.
Когда возникновение какого-то кластера гаплотипов удается обоснованно связать с конкретным историческим событием, генетическая датировка кластера может помочь датировать само событие. Например, когда в коренном населении Америки обнаруживается кластер, свойственный только ему, то возникновение этого кластера может указывать на дату первоначального заселения Америки. Но при этом важно всегда помнить, что он может указывать на иные события. Например, если этот кластер возник у предков американских индейцев еще на их сибирской прародине, то генетическая датировка кластера будет раньше реального времени заселения Америки, поскольку ко времени прибытия в Америку молекулярные часы уже какое-то время шли. Ведь в Америку прибыла популяция не с нулевым, а уже неким накопленным генетическим разнообразием. Если же этот кластер возник во время последующей истории населения, то дата его возникновения будет позже реального времени заселения Америки.
Примером такого хода событий являются кластеры, специфичные для отдельных народов Кавказа [6]: у части кластеров генетическая дата совпадает с лингвистическими датировками формирования народа, а другие кластеры значительно моложе этой даты, поскольку могли возникнуть у народа в любой период его последующей истории.
При детальной изученности населения и тщательном учете этих источников погрешностей риск
ошибок в связывании даты возникновения кластера и даты исторического события удается если не исключить, то снизить до минимума. Но если таких специальных усилий не прилагать, то ошибки имеют свойство возрастать до максимума.
Примером может служить обсуждение, состоявшееся на заре филогеографических исследований в России, когда опыта корректных интерпретаций таких данных было еще мало, а энтузиазма и веры в возможности молекулярных методов – еще много. Были исследованы гаплотипы русского населения Верхней Волги; рассматривая все гаплотипы как относящиеся к одному большому кластеру, была получена датировка его возникновения 20 тыс. лет. И обсуждался вывод, что эта русская популяция сформировалась на Волге 20 тыс. лет назад. Неправомочность самого вывода очевидна: 20 тыс. лет назад не только русских не было, но и сама эта территория была покрыта ледником. Но поскольку возраст кластера рассчитан правильно, то где же тут ошибка в логике? Их несколько.
Во-первых, не рассматривалось, в каких еще популяциях распространены гаплотипы этого большого кластера. А поскольку они распространены почти по всей Евразии, то датировка кластера относится к одному из этапов истории всего населения Евразии, а не к одной малой его части – русской популяции Верхней Волги.
Во-вторых, возникновение кластера было без достаточных оснований отнесено к той территории, где он найден; но ведь кластер мог возникнуть совсем в другом месте, где эта же популяция жила раньше.
В-третьих, даже если кластер был бы специфичен только для данной популяции и не было бы оснований предполагать ее миграцию с другой территории, то кластер мог возникнуть не обязательно одновременно с формированием популяции, а в любое время позже, поэтому дата кластера дает лишь верхнюю границу даты формирования популяции.
Резюмируем: в общем случае формирование дерева гаплотипов в значительной мере независимо от исторических событий, и потому одни и те же деревья и кластеры могли сформироваться при самых разных сценариях истории популяции. Но есть ряд исключений – некоторые из значительных демографических изменений оставляют в дереве гаплотипов характерные отпечатки, и по наличию таких следов можно заключать о том, что такие события имели место, а по датировкам соответствующих кластеров датировать и сами события. Самым ярким случаем является наличие кластера, специфичного только для изолированной популяции (неважно, какого масштаба – от материка до поселка): в этом случае возраст кластера дает представление о времени формирования популяции. Но и тут нужна осторожность: если у основателей популяции существовал не только исходный гаплотип, но и ряд дочерних гаплотипов, то возраст кластера будет больше, чем возраст популяции. А если кластер возник какое-то время спустя после формирования популяции, то кластер, наоборот,
будет моложе ее.
Всеобщая грамотность, открывшая людям доступ
к научным текстам, создает иллюзии, что чтение
равнозначно пониманию.
В.А. Шнирельман
Под “гражданской наукой” (нечасто используемая в России калька с распространенного английского термина citizen science) понимают исследования, которые проводят не академические ученые, а люди, непрофессионально интересующиеся наукой. Являясь научными по предмету исследований, эти исследования далеко не всегда следуют строгой научной методологии. А их авторы находятся около науки и формально, поскольку не интегрированы в сложившуюся структуру науки, хотя иногда взаимодействуют с ней. Гражданская наука сопутствует многим сферам академической науки, вызывающим общественный интерес, и для популяционной генетики человека “парной” к ней гражданской наукой является генетическая генеалогия.
Настойчивость, энтузиазм и несомненная талантливость помогают многим представителям
генетической генеалогии получить значимые результаты, часть из которых со временем получает признание и входит в академическую науку. Однако отсутствие навыков критического подхода, поверхностность познаний и склонность к ангажированным интерпретациям приводят других представителей генетической генеалогии к выводам, имеющим с наукой мало общего. Это свойственно многим сферам знания: так, ангажированный подход к физической антропологии порождает расизм, в случае истории он порождает фолк-хистори, в случае археологии – “черных копателей”, а в случае популяционной генетики – ДНК-генеалогию. Рассмотрим сначала положительную, научную сторону генетической генеалогии, оставив ее тень – ДНК-генеалогию – напоследок.
Генеалогия в целом – это вспомогательная историческая дисциплина, изучающая родословные. Генетическая генеалогия в первоначальном, узком смысле термина – это применение генетических, молекулярных методов определения биологического родства для более точной реконструкции родословных, а также для получения хотя бы предположительных сведений о предках, когда архивные данные отсутствуют. Эта область исследований с популяционной генетикой перекрывается мало – не более, чем, например, судебная экспертиза, где тоже устанавливается биологическое родство. Но на практике общественный интерес к происхождению народов столь велик, что многие генетические генеалоги, начав с выяснения происхождения семьи (что относится к генеалогии), потом постепенно переключаются на выяснение происхождения популяций, что относится уже к сфере популяционной генетики. При этом они продолжают называть себя генетическими генеалогами, а их научная деятельность в этой сфере характеризуется несколькими особенностями.
Во-первых, не занимаясь по понятным причинам генотипированием, они целиком сосредотачиваются на анализе данных. Результаты такого анализа зависят от того, следуют ли авторы научной методологии или нет.
Во-вторых, предметом их изучения является не столько коренное население, сколько общее население разных стран – те люди, которые прошли платное коммерческое ДНК-тестирование. Исключение составляют “этнические” ДНК проекты: в них ведется отбор представителей данного этноса, но выборки не всегда репрезентативны в отношении всего генофонда этноса. Интерес к генетическому изучению своих генеалогий велик, поэтому суммарный объем баз данных “генеалогических образцов” общего населения в несколько раз больше суммарного объема выборок образцов коренного населения, генотипированных в популяционно-генетических работах. Впрочем, и те, и другие базы данных общедоступны и могут анализироваться параллельно.
В-третьих, большинство генетических генеалогов специализируется на детальном изучении одной гаплогруппы Y-хромосомы или мтДНК (чаще всего своей собственной). Среди популяционных генетиков столь узкая специализация не встречается, а генетические генеалоги, “копая” на узком поле, имеют возможность “копать” очень глубоко. Поэтому в академической науке в последние годы сформировалось мнение, что наиболее детальными познаниями по каждой отдельной гаплогруппе обладают как раз отдельные представители генетико-генеалогического сообщества. В этой связи необходимо упомянуть о важном достижении генетической генеалогии – интернет-ресурсе по структуре глобального филогенетического дерева Y-хромосомы человека (http://isogg.org/tree), которое по причине частых обновлений является более широко используемым, чем аналогичные реконструкции дерева, изредка публикуемые популяционными генетиками [18, 36, 37].
Безоблачная картина совместной работы представителей академической и гражданской науки, которую один из авторов наблюдал, например, на конференции в Вашингтоне (http://i4gg.org), в условиях российского климата нередко осложняется появлением грозовых фронтов. Из многолетнего опыта мы вынесли личное, но глубокое убеждение, что расхождения между представителями генетической генеалогии и популяционной генетики обусловлены причинами психологическими. Представителям академической науки нелегко принять форму, в которой генетическая генеалогия подает свои результаты (например, в виде серии не всегда связанных между собой кратких “постов” на интернет-форумах). Представители же генетической генеалогии склонны компенсировать естественно возникающее в их положении “любителей” ощущение дискомфорта острой критикой в адрес “профессионалов”. Излюбленным предметом этой критики является скорость мутирования.
Неудивительно, что генетическая генеалогия выбрала для своих расчетов “генеалогическую” скорость мутирования, которая, действительно, подтверждается не только на парах “отец-сын”, но и на более глубоких генеалогиях. Но удивительно, с каким энтузиазмом критикуется скорость “эволюционная” – интернет-форумы генетических генеалогов пестрят утверждениями о “дискредитации” результатов популяционно-генетических исследований в результате использования “эволюционной” скорости, изложенной в работе [14]. С одной стороны, действительно, последние 10 лет большинство популяционных генетиков при датировках гаплогрупп по STR-гаплотипам пользовались “эволюционной” скоростью, тогда как последние работы [18, 26] показывают, что генеалогическая скорость в большинстве случаев дает лучшие результаты. Но с другой стороны, все эти годы в рамках популяционной генетики обе скорости использовались параллельно и не прекращалось обсуждение их оптимальности [6, 38–40]. Причем недавнее решение [18], совпадающее с воззрениями генетических генеалогов, было найдено в рамках собственного развития популяционных исследований. Более того, генетики, как правило, сознают трудность надежного определения возраста гаплогруппы – ведь даже если решить проблему скорости мутирования, останутся не меньшие проблемы неполноты выборки гаплотипов, неточности реконструированного дерева, и даже точно определенный возраст гаплогруппы далеко не всегда поможет датировать события в истории популяций. Но в сообществе генетических генеалогов сформировалась некая аберрация зрения: хотя расчеты возраста по STR-гаплотипам с использованием “эволюционной” скорости являются очень небольшой частью исследований Y-хромосомы, проводимых популяционными генетиками, генеалоги искренне убеждены, что “неправильная эволюционная скорость” является для популяционной генетики краеугольным камнем. К тому же в интернет-дискуссиях на эту тему нередко смешиваются скорости мутирования и метод расчета возраста кластера – хотя очевидно, что любой метод можноскомбинировать с любой скоростью.
В то же время имеется немалое число совместных достижений представителей генетической генеалогии и российской популяционной генетики: база данных Y-base, в наполнении которой большую помощь оказал Роман Сычев; программа-предиктор, разработанная для популяционных генетиков Вадимом Урасиным; совместные интернет-публикации (Генетика и ген-генеалогия – что общего? Диалог 1 и Генетика и ген-генеалогия – что общего? Диалог 2), помощь ряду генеалогов, исследующих связи гаплотипов с фамилиями и родами у народов Кавказа, Закавказья и Приуралья, совместные исследования генетиков и томских генеалогов (Волков В. Г. "Генофонд южных селькупов в контексте исторических и археологических данных"), и мн. др. Остается надеяться, что эти реальные совместные достижения помогут русскоязычным генетикам и генеалогам догнать и перегнать своих англоязычных коллег по части сотрудничества друг с другом.
Выше уже обсуждалось, что связь кластеров гаплотипов (и их датировок) с историей популяций неоднозначна и прямолинейные интерпретации могут приводить к ошибкам. К сожалению, именно это произошло с маргинальной ветвью генетической генеалогии, представители которой называют свою область “ДНК-генеалогией”
В этой области гаплогруппы мыслятся как популяции – они мигрируют, смешиваются, развивают археологические культуры и даже воюют друг с другом, побеждают и вытесняют одни других, имеют разный “социальный” ранг. Применительно к фрагментам ДНК, это, конечно, бессмыслица, но в рамках ДНК-генеалогии “гаплогруппы” отождествляются с людьми – их носителями – и с популяциями. Подобная логика основывается на убеждении, что каждая популяция состоит из носителей одной гаплогруппы и “маркируется” ей, а если в популяции встречено несколько гаплогрупп, то такая популяция возникла слиянием нескольких гаплогрупп-популяций. В силу такого убеждения ДНК-генеалогия механически переносит на историю популяций и народов все обилие имеющихся данных по филогеографии преобладающей в данной популяции гаплогруппы, включая место и время ее возникновения, пути распространения, деление на дочерние субгаплогруппы и т.д. В результате ДНК-генеалогия легко “решает” многие проблемы истории популяций, включая прародину человечества (ею оказывается не Африка, а Россия), индоевропейскую проблему, происхождение славян (праславяне оказываются ариями), и т.д.
Причем лежащее в основе ненаучных реконструкций убеждение, что популяция – это гаплогруппа, и что поэтому реконструкция истории гаплогруппы рассказывает историю популяции – вовсе не является ни безоговорочно неверным, ни чуждым академической науке. Такие исключения существуют, но ДНК-генеалогией они возводятся в правило. Можно привести ряд примеров, когда популяция действительно состоит из одной гаплогруппы: все коренное население Америки относится только к гаплогруппе Q-M3; многие крупные роды и кланы тюркоязычных народов восходят каждая к своему биологическому основателю и представляют, соответственно, кластеры гаплотипов Y-хромосомы; “народ желтых листьев” Таиланда имеет не только одну гаплогруппу, но даже единственный гаплотип митохондриальной ДНК. Однако риск приравнять гаплогруппу к популяции дамокловым мечом нависает над всеми исследователями гаплоидных генетических систем в популяциях человека. Уж очень велик соблазн принять историю гаплогруппы, встреченной в популяции, за историю самой этой популяции, забыв о том, что, хотя демографическая история популяции действительно влияет на историю содержащихся в ней гаплогрупп, эти две истории редко когда могут быть приравнены друг к другу.
В действительности же популяций, генофонд которых состоит из одной гаплогруппы, ничтожное меньшинство. Причина в том, что для возникновения “моногаплогруппных” популяций (фиксации аллеля) необходим чрезвычайно сильный дрейф генов, который случается редко и длится исторически недолго. А для того, чтобы “моногаплогруппная” популяция перестала быть таковой, достаточно даже небольшого потока генов из других популяций, что происходит постоянно с любыми популяциями человека. Если же в популяции и присутствует только одна гаплогруппа (например, Q-M3 в коренном населении Америки), то филогеография именно этой гаплогруппы будет информативна только на одном отрезке времени – при изучении только этапа формирования популяции, а для изучения последующих этапов ее истории – будет непригодна. Для анализа последующих этапов истории популяции уже надо изучать не Q-M3, а те субгаплогруппы, которые возникли в ее пределах. Но в отношении этих субгаплогрупп популяции индейцев уже не являются “моногаплогруппыми”, а включают сразу несколько субгаплогрупп.
Итак, полной связи гаплогрупп с популяциями нет. Возникает вопрос, есть ли связь частичная? Например, если какая-то гаплогруппа составляет заметную часть генофонда популяции, то происхождение этой гаплогруппы маркирует происхождение части генофонда популяции, т.е. какой-то субстрат или миграционный поток в нее. Это справедливо, и на этом основано использование гаплогрупп как маркеров миграций. Например, обнаружив в современных популяциях индейцев гаплогруппы, свойственные европейцам, прослеживают миграции Нового времени [41]. Но дело в том, что такая логика работает только на “один шаг”, на короткий отрезок времени. Потому что, раз соединившись в одной популяции, разные гаплогруппы уже являются частями одного генофонда и далее мигрируют только совместно. Например, если эта метисированная популяция мигрирует дальше, то маркерами этой миграции являются уже в равной мере не только “европейские”, но и “индейские” гаплогруппы, и история этой дочерней популяции не сводится к истории “европейских” гаплогрупп.
Остается рассмотреть еще один аргумент, которым ДНК-генеалогия обосновывает правомочность своего подхода: гаплогруппы называются “родами”, и история народа описывается как история входящих в него родов-гаплогрупп. Ведь то, что многие народы состоят или состояли из родов, хорошо известно из этнографии, а для обыденной логики следует и из самого сходства этих слов. Род определяется в этнологии как социальная группа, члены которой считают, что происходят от общего предка (как правило, по мужской линии) – мифического или исторически реального. А гаплогруппа объединяет людей, которые действительно происходят по мужской линии от общего предка. Казалось бы, если люди справедливо считают себя родственниками, то понятия рода и гаплогруппы совпадают. И описано много таких популяций-родов, действительно имеющих в своем генофонде одну основную гаплогруппу [26, 42–44 и мн. др. работы]. Но на деле ни одна из таких популяций родов не является состоящей только из носителей одной гаплогруппы: любой крупный род всегда включает “приемных” членов, приносящих в генофонд популяции другие гаплогруппы. И наоборот, одна и та же гаплогруппа часто встречается у различных родоплеменных групп: возникнув изначально в одной из них, она затем распространяется по широкому кругу популяций. Поэтому связь рода и гаплогруппы, во-первых, может быть или же отсутствовать (и выяснение этого вопроса является важной задачей популяционных генетиков). А во-вторых, если такая связь обнаруживается, то она работает только на коротких временны' х дистанциях. Поэтому “когда слова утрачивают свой смысл” и гаплогруппу называют “родом”, приписывая ему многотысячелетнюю историю гаплогруппы, это становится искажением, смешивающим биологическое и социальное понятия.
Итак, ДНК-генеалогия описывает историю народов как историю отдельных родов-гаплогрупп, каждый из которых имеет свою историю, свои маршруты миграции по планете и которые, если иногда и соединяются в одной популяции, то затем вновь расходятся, сохраняя свое гаплогруппное “лицо”, каждый своей дорогой. Но, как показано выше, такой взгляд ненаучен: он неправомочен ни как общее правило (гаплогруппа – это не популяция), ни как исключение (история гаплогруппы – это не история популяции, даже если гаплогруппа в популяции только одна), ни даже как описание родоплеменных групп (гаплогруппа – это не род).
В рамках основной темы данного обзора необходимо рассмотреть и особенности генетических датировок, практикуемые в ДНК-генеалогии. Они включают не только два выше описанных метода расчета (ρ и ASD), но и “логарифмическую” формулу, которую в популяционной генетике не используют из-за отсутствия каких-либо ее преимуществ. Эта формула легко выводится из распределения Пуассона и описывает логарифмический закон убывания исходного варианта при постоянной скорости его превращения в производные варианты. Она широко используется в ядерной физике для описания радиоактивного распада, в химической кинетике для описания химической реакции, в лингвистике для описания замены слов, а ДНК-генеалогия применила ее для описания возникновения кластеров гаплотипов. И, подобно тому как радиоуглеродный метод позволяет датировать образец, а глоттохронологический метод позволяет датировать время расхождения языков, в ДНК-генеалогии датируется время возникновения кластера гаплотипов.
Этот метод требует только знания того, какой гаплотип является исходным. Определяется его частота, и из нее рассчитывается прошедшее время: чем больше прошло времени, чем меньше становится эта частота, поскольку исходный гаплотип постепенно мутирует в производные. Достоинством такого метода является только его простота для вычислений, что важно для любителей. Можно было бы сказать, что другим достоинством является то, что не требуется знать филогенетическое дерево гаплотипов, но тем же достоинством обладает и метод ASD. Недостатком же – и весьма существенным – метода доли исходного гаплотипа является то, что он применим только для самых простых филогенетических схем, а если доля исходного гаплотипа стала мала по сравнению с суммарным числом производных гаплотипов, точность и надежность метода стремительно падает.
При использовании этого метода используется поправка на обратные мутации. Действительно, могут происходить и обратные мутации производных гаплотипов в исходный, и они занизят наблюдаемую долю производных гаплотипов по сравнению с долей реально возникавших производных гаплотипов. Лежащая в основе метода теоретическая модель STR-мутаций в предположении пошагового мутирования разработана Дмитрием Адамовым; эта модель позволила вывести аппроксимационную формулу, учитывающую возвратные мутации, которая носит название формулы Адамова–Клесова. Отметим, что эта поправка обоснована при использовании внешне заданной скорости мутирования, но при использовании калиброванных скоростей мутирования такая поправка не нужна – ведь обратные мутации могли происходить и в примере, послужившем основой калибровки, а значит уже в неявном виде учтены.
Критическое обсуждение различных методов, применяемых в ДНК-генеалогии, уже имеется в нескольких интернет-публикациях генетических генеалогов Дмитрия Адамова и Сергея Каржавина, в том числе сравнение ρ-статистики, ASD и логарифмического метода, а также обсуждение границ применимости каждого из методов. Можно надеяться, что эти исследования будут вскоре опубликованы и в научной периодике.
Можно видеть, что наработки ДНК-генеалогии имеют ограниченное значение для генетической генеалогии в целом, и почти никакого – для популяционной генетики. К тому же эта составляющая, которая может иметь отношение к науке, – лишь малая часть всей “теории” ДНК-генеалогии. К основной вненаучной части относится, например, постулат, что генетика изучает только гены, а все остальные – негенные – участки ДНК являются предметом изучения ДНК-генеалогии. С помощью наслаивания одних неверных постулатов на другие и формируется комплекс воззрений ДНК-генеалогии, получивший в научных кругах статус лженаучного (“Троицкий Вариант”, № 1(170), 13 января 2015 г.).
Даже столь краткому обсуждению ДНК-генеалогии было бы не место в научной статье, если бы, во-первых, она не распространялась столь широко в русскоязычном интернете, что многие ученые, не являющиеся популяционными генетиками, поневоле знакомятся с ней и затрудняются в отделении зерен от плевел, и во-вторых, если бы идея отождествления истории гаплогрупп с историей популяций, в законченном виде воплощенная ДНК-генеалогией, не была бы постоянным соблазном и для самих популяционных генетиков, не исключая и авторов этих строк.
Этот соблазн только возрастает при современном буме исследований древней ДНК, где изучаются выборки крайне малого объема и поэтому индивидуальные данные вынужденно распространяются на популяцию в целом.
Авторы выражают признательность Дмитрию Адамову за конструктивные комментарии к ранней версии этого обзора. Работа выполнена при финансовой поддержке Российского научного фонда, проект 14-04-00827. Данные секвенирования, использованные в примере байесовского моделирования, получены в рамках проекта лаборатории исторической генетики МФТИ.