Шрифт:
Интервал:
Закладка:
Пытаясь прояснить ситуацию, мы попросили Nature опубликовать короткую заметку, а в ней указывали, что некоторые отличительные черты в наборах данных следует отнести за счет разницы в технологиях бактериального клонирования и секвенирования по 454. Кроме того, нелишне было бы вспомнить те дополнительные эксперименты по секвенированию, которые отражали крайне низкий уровень загрязнений. Но вдруг выяснилось, что кое-какие загрязнения были внесены в наши данные по 454, вероятно, из библиотек ДНК Джеймса Уотсона, которые как раз тогда и секвенировали. Так что в заметке мы ограничились высказыванием, что “уровень загрязнений может оказаться выше того, который определяется по мтДНК”. Но насколько выше, этого мы сказать не могли. Мы дали для читателей ссылку на статью Уолла и на ту, где мы описываем методику мечения библиотечных последовательностей, которая позволяет навсегда решить вопрос с загрязнениями вне наших “чистых комнат”. Еще дали ссылку на доступную базу данных геномных последовательностей, откуда любой желающий может взять данные и сам поразбираться с волнующими его вопросами. Я очень досадовал, когда после рецензирования Nature решил нашу заметку отклонить[56].
Мы обсуждали, стоило ли публиковать ту статью в Nature, не слишком ли мы поспешили. Не увлеклись ли соревнованием с Эдди? Может, стоило подождать? Некоторые говорили, что стоило, другие – что нет. Даже теперь, оглядываясь назад, я уверен, что тот прямой тест загрязнения по мтДНК не соврал, оно было очень низким. У анализа по мтДНК имеются свои ограничения, но, по-моему, прямые доказательства всегда перевешивают косвенные рассуждения. В той заметке, которую Nature так и не опубликовал, мы написали: “Никаких тестов на загрязнение по ядерной ДНК пока не существует, но чтобы получать надежные данные по древней ДНК, необходимо их разработать”. И в следующие несколько месяцев это стало главной темой наших пятничных собраний.
Ну вот, необходимые библиотеки ДНК составлять мы научились, скоро команда из 454 запустит свои мощные машины и все прочитает. Так что можно браться за новую задачу: картирование. Нам предстояло найти для каждого короткого фрагмента неандертальской ДНК соответствие в эталонном геноме человека. Звучит просто, но на деле задача оказалась колоссально сложной, примерно как если бы вы складывали гигантскую головоломку, в которой часть кусочков потеряна, часть попорчена и еще множество попало в коробку из других наборов и поэтому не подходит вообще.
Суть задачи по сортировке фрагментов состояла в том, что нужно было одновременно держать в голове две противоположных возможности. С одной стороны, если требовать абсолютно точного соответствия неандертальских и человеческих отрезков ДНК, то можно упустить или отбросить те, в которых имеются значимые отличия (или ошибки). И в результате неандертальский геном предстанет более похожим на человеческий, чем на самом деле. Но с другой стороны, если позволить слишком приблизительное соответствие, то в неандертальский геном попадут фрагменты бактериальных ДНК, которые иногда похожи на те или иные участки человеческой последовательности. В этом случае неандертальский геном будет слишком сильно отличаться от человеческого – больше, чем в реальности. Собственно, на том этапе можно было забыть обо всех остальных частностях и сосредоточиться на балансировании между этими двумя крайностями; от выбранного баланса зависел весь дальнейший анализ и подсчет различий между человеческим и неандертальским геномами.
Кроме того, была еще и практическая сторона дела. Компьютерные алгоритмы для картирования не могли учитывать слишком много параметров: мы ведь хотели сравнивать массивы в 3 миллиарда человеческих нуклеотидов с миллиардом неандертальских фрагментов по 30–70 нуклеотидов каждый (именно такое количество ДНК мы планировали секвенировать из костей). Программам с такими объемами быстро не справиться.
Несколько человек взялись за монументальную задачу по составлению алгоритма картирования: Эд Грин, Дженет Келсо и Удо Штенцель. Дженет приехала к нам в лабораторию в 2004 году из Университета Западно-Капской провинции в своей родной ЮАР и возглавила у нас группу биоинформатики. Как-то незаметно, но очень эффективно из самых разных и необычных личностей она создала целостную сплоченную команду. Взять, например, Удо: немного мизантроп, убежден, что большинство тех, кто выше его в академической должностной иерархии, – спесивые дураки. Удо бросил университет, так и не получив диплом по информатике. И тем не менее, когда дело касалось программирования и умения логически мыслить, большинство его учителей не шли с ним ни в какое сравнение. Нам повезло, что он нашел неандертальский проект достойным своего внимания, хотя временами он сводил меня с ума своей абсолютной убежденностью в непогрешимости собственных знаний. Честно говоря, если бы не Дженет, я бы с ним, скорее всего, не сработался.
Все работы по картированию полученных фрагментов, по сути, координировал Эд, чей собственный проект по сплайсингу РНК тихо и незаметно скончался. Вместе с Удо они разработали алгоритм картирования, который учитывал закономерности появления ошибок в последовательностях неандертальских ДНК. Эти закономерности, в свою очередь, определяли Эдриан с Филипом Джонсоном, талантливейшим студентом из группы Монти Слаткина из Беркли. Они-то и выяснили, что ошибки располагались в основном на концах фрагментов ДНК. Дело в том, что, когда молекула ДНК рвется, получаются две неравных по длине нити, и у той, что длиннее, конец торчит, становясь уязвимым для химических атак. Эдриан провел тщательный анализ и понял, что ошибки происходят из-за отщепления молекул азота от цитозинов, а не от аденинов, как мы ошибочно посчитали годом раньше. Даже больше: если Ц стоит на самом конце цепочки, то риск появления его в наших последовательностях в виде Т оценивается в 20–30 процентов.
Эд по-хитрому сумел включить в алгоритм эту Эдрианову закономерность: вероятность ошибок в зависимости от позиции нуклеотида в отрезке последовательности. Например, если неандертальская молекула имела Т на конце, а человеческий геном – Ц, то это считалось как точное соответствие, так как вероятность ошибки “отщепление и замена Ц на Т” очень часто встречается. И напротив, Ц на конце неандертальской молекулы и Т – человеческой считалось как полное несовпадение. Теперь мы не сомневались: алгоритм Эда значительно снизит уровень ложного наложения фрагментов и увеличит, соответственно, уровень корректных попаданий.
Дальше нам предстояло решить, какой из человеческих геномов выбрать для сравнения с неандертальским. Мы хотели понять – и это было одной из целей наших исследований, – будет ли генная последовательность неандертальцев ближе к европейскому человеку или к людям из других частей света. Ведь если мы составим карту фрагментов неандертальского генома относительно европейского варианта (а примерно половина эталонного генома принадлежит индивиду европейского происхождения, как известно)[57], то фрагменты, совпадающие с европейским геномом, останутся, тогда как те, что больше напоминают африканские геномы, отсеются. И тогда в результате мы получим геном неандертальца, слишком сильно похожий на европейский, что будет неверно. Понятно, что для сравнения нужно что-то нейтральное, и мы остановились на геноме шимпанзе. У неандертальцев, людей и шимпанзе был общий предок, и жил он, скорее всего, в промежутке от 4 до 7 миллионов лет назад. Это означало, что геном шимпанзе отличается и от человеческого, и от неандертальского. Мы также составили карту фрагментов неандертальской ДНК относительно гипотетического генома общего предка гоминидов и шимпанзе; этот геном разрабатывали в других лабораториях. После того как мы произведем картирование по геномам нашего общего отдаленного предка, фрагменты неандертальской ДНК можно будет сравнить с соответствующими последовательностями современных человеческих геномов из разных частей света. И тогда появится смысл обсуждать найденные различия, не опасаясь ошибок неверного начального выбора.