Нам важно было выяснить, насколько часто у неандертальца появляются продвинутые аллели, общие с современными людьми. Чем больше их найдется, тем, значит, позже разделились эволюционные ветви неандертальцев и людей. Взявшись за анализ новой информации из 454 летом 2007-го, Эд забил тревогу. Он подтвердил более раннее наблюдение, сделанное на небольшой выборке, — его опубликовали Уолл с группой ученых в 2006 году. По сути, они написали, что длинные фрагменты неандертальской ДНК — а речь идет о фрагментах в 50 нуклеотидов и более — содержат больше продвинутых аллелей, чем короткие. Таким образом, получалось, что длинные фрагменты связаны более тесным родством с современным человеком, чем короткие, — наблюдение парадоксальное, но, вполне возможно, опять-таки являющееся результатом все тех же загрязнений.
На пятничных собраниях мы ни о чем другом и не говорили, только об этом вопросе. Одно предположение следовало за другим, и все безрезультатно. В какой-то момент у меня кончилось терпение, и я приготовился к ужасному поражению: может, действительно виной всему чужеродные ДНК и пришло время сдаться. Признать, что составить сколько-нибудь правдоподобный неандертальский геном невозможно. Мыслей больше не было ни одной, хотелось рыдать. Я, конечно, себе этого не позволил, но все равно многие в группе почувствовали, что мы по-настоящему близки к провалу. Может быть, именно это и подстегнуло группу, придало участникам куражу. Я заметил, что у Эда появились круги под глазами, будто он не спал несколько недель. Он-то и решил головоломку.
Вспомним, что продвинутый аллель появляется как мутация у отдельного индивида — что по определению делает продвинутый аллель редкостью. Если рассматривать геном в целом, то примерно 35 процентов индивидуальных различий в нуклеотидных позициях приходится на продвинутые аллели, а 65 — на предковые. Эд догадался вот о чем: такое распределение означает, что если во фрагменте неандертальской ДНК присутствует продвинутый аллель, то от соответствующего фрагмента человеческого генома он будет отличаться в 65 процентах случаев и совпадать только в 35 процентах. Таким образом, получается, что фрагмент неандертальской ДНК скорее совпадет с человеческим, если присутствует предковый аллель! Кроме того, Эд понял, что компьютерная программа картирования часто не распознает короткие фрагменты, не совпадающие с человеческими аналогами. А длинные, наоборот, узнает: они естественным образом имеют больше совпадений по позициям, и потому программа их засчитывает, даже если в них имеется отличие-другое. В результате программа чаще отсеивает короткие фрагменты с продвинутыми (более редкими) аллеями, чем длинные, и на выходе получается, что в коротких фрагментах меньше продвинутых аллелей, чем в длинных. Эду пришлось несколько раз втолковывать мне всю эту логику, пока я не уразумел. И даже тогда я не до конца верил собственному чутью, все надеялся, что Эд сумеет отыскать более наглядное доказательство.
В конце концов Эд изобрел-таки хитроумный способ — что угодно, только бы не видеть, как я рыдаю на собрании в пятницу. Он просто взял из выборки длинные фрагменты ДНК и разрезал их пополам — естественно, виртуально, в компьютере, — получив таким образом фрагменты вдвое короче. Затем он прогнал эти короткие фрагменты через программу картирования. И, как по волшебству, частота появления продвинутых аллелей снизилась по сравнению с частотой продвинутых аллелей в длинных фрагментах. А ведь из них-то и были нарезаны короткие фрагменты. А недостача продвинутых аллелей получалась как раз из-за того, что короткие фрагменты с такими аллелями “вызывали подозрение” у компьютерной программы и она их отсеивала. Ну наконец-то, вот оно, объяснение, и вовсе это не загрязнения! Хотя казалось очевидным, что дело в них. По крайней мере, теперь мы имели возможность выявить картину загрязнений в том первом, пробном анализе материала из Nature. Я мысленно выдохнул с облегчением, когда Эд представил свой эксперимент. Мы опубликовали наши догадки в узкоспециальной статье в 2009 году[58].
Работа Эда еще раз убедила меня в том, как необходим прямой количественный анализ загрязнений. Каждую пятницу мы заново обсуждали способы оценки уровня загрязнений ядерной ДНК. Но теперь, когда об этом заходила речь, я оставался спокоен. Я знал, что мы на верном пути.
Глава 15
От костей к генам
К 2008 году команда 454 проделала 147 запусков по девяти библиотекам, приготовленным из образцов Vi-33.16. Так что было в результате получено 39 миллионов отсеквенированных фрагментов. Цифра внушительная, без сомнения, но я надеялся, что к этому времени у меня уже будет больший объем отсеквенированной ДНК. С таким набором данных мы и думать не могли подступиться к составлению генома. Тем не менее очень хотелось отработать сам алгоритм картирования. Поэтому мы затеяли гораздо менее масштабное предприятие по реконструированию митохондриального генома. Ведь чем мы, да и другие тоже, располагали до того момента? Всего 800 нуклеотидов одного из вариабельных участков неандертальского мт-генома. А нам хотелось иметь его целиком, все 16 500 нуклеотидов.
Эд Грин принялся просеивать 39 миллионов прочтенных фрагментов ДНК; он решил сложить вместе кусочки, напоминавшие последовательности мт-генома современных людей. Затем нужно было сравнить их и, обнаружив перекрывающиеся участки, наложить друг на друга. И так шаг за шагом выстраивалась неандертальская последовательность.
Затем он снова прошерстил 39 миллионов фрагментов, но уже ориентируясь на проступающую неандертальскую цепочку. Этот новый поиск выявил фрагменты, упущенные на первом этапе. Ему удалось идентифицировать 8341 митохондриальный фрагмент неандертальца, в среднем длиной в 69 нуклеотидов. Из них получилась полная цепочка молекулы мтДНК в 16 565 нуклеотидов — самая длинная из когда бы то ни было реконструированных мтДНК.
Глядя на результат, совершенно конкретный,