Шрифт:
Интервал:
Закладка:
Кстати, этот пример о столь малой значащей доле эукариотического генома по сравнению с горой остального «мусора» можно удобно использовать в разговорах со сторонниками теории разумного замысла. Ведь в таком случае им придется признать, что вирус и бактерия намного более совершенное существо, чем человек. Кишечная палочка – вершина творения! Как звучит.
Итак, в геноме человека не более 30 000 генов, кодирующих белки. Значит, ожидаемое количество белков, нужных для постройки и функционирования человеческого тела, тоже около 30 000. Но так ли это на самом деле? Заглянем в самую большую и полную базу данных белковых последовательностей в мире UniProt. Согласно отчету на начало 2022[139] года, в базе содержится более 20 000 человеческих белков. Однако эти имеющиеся данные о белках не описывают все возможные и даже хотя бы просто известные функции человеческого организма. А сколько еще неизвестных! В очереди на проверку специалистами в базе данных предсказанных белков на начало того же 2022 года стоят еще почти 184 000 предсказанных биоинформатиками белковых последовательностей![140] По оценкам специалистов[141], от 80 000 до 400 000 белков могут быть обнаружены в теле человека. Вот это цифра! Но как записать их на куда меньшее количество генов?
3.2. Из одной мухи десяток слонов
Секрет эукариотических генов спрятался в их необычной форме хранения в геноме. Представить ее проще всего, отказавшись от метафоры о книге рецептов и заменив книгу на глянцевый журнал. Вот вы читаете рецепт приготовления шоколадного торта. Закончив часть о коржах, переворачиваете страницу, чтобы разобраться с составом глазури. А вместо него там реклама средства от морщин или акустической системы. За страницей рекламы обязательно будет и рецепт глазури, но прежде, чем далее перейти к начинке, вам опять понадобится отлистать пару страниц рекламы кухонного комбайна и тура на Мальдивы. Информационные части рецепта в журнале-геноме называются экзонами, а части с бессмысленной и ненужной вам рекламой – интронами. И по сути интроны тоже часть того самого мусора, о котором мы говорили выше. Как же такая концепция разрывной записи помогает решить задачу создания по одному набору генов во много раз большего количества белков?
Уже привычно для этой главы мы вновь позовем на помощь математику. На этот раз нам понадобится ее особый подраздел – комбинаторика, ведь говорить мы будем о совершенно классических задачах на перестановки. «Петя, Вася и Наташа занимают очередь в кассу кинотеатра. Сколькими способами они могут выстроиться?» – помните?
Переставляя экзоны в разном порядке, мы можем получать различные варианты, казалось бы, одного и того же гена. Такой механизм называется «сплайсинг».
В литературе есть такой жанр, как книга-игра. Такую книгу можно читать подряд, от первой главы к последней, и получить одно развитие сюжета. А перетасовав порядок глав, случайно или согласно авторскому сценарию, получить еще с десяток вариантов его развития и развязки. И все по одной книге. Моя любимая в этом жанре – «Игра в классики» Хулио Кортасара. В конце каждой главы есть числовой указатель с вариантами, какую главу можно прочесть следующей. Честно говоря, моей силы духа пока хватило лишь на два варианта – книга слишком уж не из легких.
Почти все гены эукариот как этот роман: они состоят из нескольких «глав», и читать эти главы можно в разном порядке. Первым делом, как и в рассмотренной нами ранее истории для бактерий, происходит считывание с ДНК в РНК всего гена. Получившаяся РНК содержит в себе и интроны, и экзоны. Такая РНК еще незрелая. Чтобы стать пригодным рецептом для изготовления белка, ей придется пройти ряд трансформаций – в частности избавиться от ненужных частей и в правильном порядке собрать нужные информационные кусочки. В самом классическом варианте сплайсинга порядок и состав экзонов останется прежним. Рассмотрим пример. Пусть незрелая РНК выглядит так:
Экзон 1 – Интрон 1 – Экзон 2 – Интрон 2 – Экзон 3 – Интрон 3 – Экзон 4
(для краткости будем записывать это как Э1-И1-Э2-И2-Э3-И3-Э4).
Тогда после вырезания интронов и склейки экзонов в изначальном порядке мы получим новую, уже готовую матричную РНК (мРНК), которая будет состоять из:
Э1-Э2-Э3-Э4.
Такая мРНК уже готова отправиться на молекулярный «завод» – в рибосому. Там по матрице мРНК будет произведена постройка аминокислотной цепочки – то есть белка. В человеческом геноме помимо такого «классического» варианта почти 94 % генов имеют и альтернативный[142]. Да, как правило, еще и не один, а сразу несколько. Большинство наших генов по современным оценкам в среднем могут производить по три различных варианта белка![143] А некоторые и того больше. Вариантов сплайсинга существует множество, они называются альтернативный сплайсинг. Самые простые и распространенные варианты альтернативного сплайсинга – варианты, когда вместе с интронами «случайно» вырезается и какой-то из экзонов. В нашем примере такими вариантами могли бы стать следующие мРНК:
Э1-Э2-Э3,
Э1-Э3-Э4,
Э2-Э4.
Реже встречается интереснейший механизм, при котором склеиться для образования зрелой мРНК могут экзоны из разных молекул незрелой мРНК, обычно входящие в состав разных генов![144] Такой вариант сплайсинга называется транс-сплайсинг. Как это может выглядеть: обозначим первый транскрипт как Э1-И1-Э2-И2-Э3-И3-Э4, а второй как э1-и1-э2-и2-э3, тогда продуктом их транс-сплайсинга может стать:
Э1-Э2-э3 или э1-э2-Э3.
Не так давно ученым стало известно, что изредка даже может меняться порядок экзонов при построении мРНК[145], и получится что-то вроде:
Э2-Э1-Э4 или Э3-Э4-Э2-Э1.
Один из вариантов среднего, делящий распределение пополам. Чтобы вычислить медиану, нужно упорядочить все элементы выборки по возрастанию (например, выстроить детей в классе в шеренгу по росту), а потом посмотреть, что оказалось ровно посередине. То есть половина выборки будет меньше этого значения, а вторая половина больше него. Пусть рост учеников в классе 123, 125, 126, 126, 126, 128 и 156 сантиметров. Тогда медиана этого распределения будет 126. В отличие от среднего арифметического значения, которое мы обычно привыкли подозревать, говоря о некоем среднем. Для вычисления среднего арифметического нам нужно сложить рост всех учеников и разделить его на количество детей: (123 + 125 + 126 + 126 + 126 +128 + 156)/7 = 130. Мы получили 130 сантиметров, хотя почти все ученики в классе меньше. В данном случае картину нам испортило значение 156, сильно