Биохимики приблизительно оценили количество белков в человеческом организме в 100 тысяч. Мы предполагали, что столько же будет и генов, которые кодируют эти белки. Генетики хотели знать, сколько на самом деле существует генов и где именно они расположены на хромосомах. Каким же шоком оказалось, что эти гены составляли менее 2 % от всего генома, может, даже 1,5! Выглядело так, будто ими просто невозможно закодировать все 100 тысяч белков, из которых построен человеческий организм.
Что же и где пошло не так?
Эти скромные 1,5 % генома состояли из приблизительно 20,5 тысячи генов, кодирующих белок. Для генетиков и в целом для биологов это было удивительной новостью. На то время весь мир верил в гипотезу Бидла и Татума, по которой один ген кодирует один белок, а значит, генов должно было быть от 80 до 100 тысяч. Оказалось, это бессмыслица. А вслед за ним — другое открытие: по оценке Крейга Вентера, как минимум 40 % этих генов не выполняли никакой известной нам функции. «Мы понятия не имеем, зачем они нужны. Раньше биология о них не знала». Ему пришлось отметить: «Это заставило нас склонить голову».
20,5 тысячи ненужных генов — хочется просто опустить руки. Для сравнения: у нас примерно в 10 раз больше генов, чем у средней бактерии, в 4 раза больше, чем у фруктовой мушки, и всего в 2 раза больше, чем у круглых червей нематод. И у всей этой троицы — человека, мушки и червя — есть 1523 общих гена.
Дарвин был первым, кто осмелился представить, что все живые существа на Земле тесно связаны между собой процессом эволюции, идею которой он предложил. И вот на скрижалях жизни, в человеческой ДНК, мы нашли подтверждение его гениальности — и в то же время новое удивительное несоответствие.
Как наука сможет объяснить, что в 20,5 тысячи генов закодировано примерно 100 тысяч белков?
До этого момента мы считали, что кодирующие белки гены, состоящие из длинных цепочек ДНК, полностью копировались соответствующей информационной РНК — с тем лишь исключением, что четвертый полинуклеотид тимин в ДНК заменяется на урацил в РНК. Эта длинная цепочка соответствующей РНК перемещается из ядра к рибосомам в цитоплазме, которые производят белок. Там, на основе триплетов, РНК транслируется в белки, аминокислоты которых в точности соответствуют исходному генетическому коду ДНК в ядре. По данной гипотезе количество генов должно соответствовать количеству белков.
Ключом к загадке стало ошеломляющее открытие, которое сделали двое ученых в 1977 году.
Ричард Дж. Робертс — выпускник моей альма матер, Шеффилдского университета. Там он получил степень бакалавра наук по химии, закончив докторскую диссертацию в 1965 году. После этого он работал в лаборатории в Колд-Спринг-Харбор, штат Нью-Йорк. Филлип Аллен Шарп — выпускник Иллинойского университета в Нью-Йорке. Он также закончил докторскую в 1965 году и работал в лаборатории в Колд-Спринг-Харбор. Робертс и Шарп исследовали, как гены вируса, называющегося аденовирус 2, кодировали белки в культуре клеток тканей. Ученые выяснили, что информационная РНК, которая у рибосом производила белок, была значительно короче в смысле нуклеотидной последовательности, чем ДНК в ядре вируса. Это подсказало ученым, что только часть так называемых кодирующих белки генов действительно кодировали аминокислоты производимых по их инструкциям белков. При передаче генетического кода из ядра вируса в клетки организмов-носителей, видимо, происходило что-то очень загадочное.
Ситуация такая же, как с исследованиями бактериофагов, самых маленьких из микробов, лет тридцать назад: вирусы открыли нам глаза на более общее биологическое правило. Робертс и Шарп обаружили то, что мы сейчас называем интронами и экзонами, которые очень важны в генетическом механизме сплайсирования. Это открытие принесло им Нобелевскую премию по физиологии/медицине в 1993 году.
Что такое интроны и экзоны? Как они решают вопрос несоответствия между количеством кодирующих белки генов и предполагаемым количеством белков, закодированных в человеческом геноме?
Возможно, настало время вновь вскарабкаться в вагон нашего воображаемого поезда, который отвезет нас в микроскопическую страну по своим удивительным двойным рельсам из фосфатов и дезоксирибозы и не менее удивительным шпалам.
В мгновение ока мы оказываемся в вагоне — чух-чух-чух — и едем по длинным цепочкам хромосом. Мы знаем, что в этой хромосоме есть определенные участки ДНК, называющиеся генами. Раз уж мы в Волшебной стране и здесь есть место магии, мы можем решить, что следующий ген на наших рельсах будет подсвечиваться зеленым. Зная это, мы замедляемся достаточно, чтобы увидеть впереди участок, пульсирующий изумрудно-зеленым светом, — мы находимся в начале гена. Затем переключаемся на тихий ход и едем вдоль рельсов. Заметно, что светятся зеленым именно шпалы. Через некоторое время они становятся обычного коричневого цвета. И я полагаю, что мы еще не у конца гена: зеленый участок пути, который мы прошли, — просто первый экзон.
И вам хочется спросить: «Где именно мы сейчас находимся?» — «Обычный участок с коричневыми шпалами — это первый интрон».
Мы медленно двигаемся по этому участку и понимаем, что он длиннее предыдущего. Но он внезапно заканчивается, и мы въезжаем на новый зеленый участок — второй экзон. Мы продолжаем путешествие и видим еще три экзона, перемежающихся двумя интронами, как будто пробелами. Все действительно очень просто. Робертс и Шарп поняли, что ДНК отдельного гена не обязательно кодирует один белок. Ген разделен на маленькие участки — экзоны, отделенные друг от друга интронами. Для кодирования одного белка нужно особое сочетание экзонов, а не целый ген, — эти экзоны и копируются в информационную РНК вместе с интронами, однако в процессе кодирования интроны уберутся и экзоны соединятся вместе для получения конечного варианта сообщения, которое передается посредством РНК и кодирует белок.