Раздутый аппарат генома

Галина Костина
24 сентября 2012, 00:00

Результаты масштабного проекта ENCODE, о которых в начале сентября доложили его участники, показали, что большая часть генома, которую раньше считали «мусорной», занимается в основном обеспечением и управлением синтеза белка

Рисунок: Константин Батынков

Участники проекта ENCODE («Энциклопедия элементов ДНК») в начале сентября опубликовали результаты своего труда — более 30 статей в престижных научных изданиях Nature, Science, Genome Biology и Genome Research. Проект стартовал в 2003 году. Он был инициирован Национальным институтом по изучению генома человека США. В нем приняли участие более 400 ученых из 32 лабораторий США, Великобритании, Японии, Испании, Сингапура. Цель проекта — понять, как работает геном.

История дела такова. За два года до этого были опубликованы результаты другого амбициозного проекта — «Геном человека», который длился пятнадцать лет и стоил около 3 млрд долларов. Его результатом стало прочтение невероятно длинной цепочки из 3 млрд нуклеотидов, состоящей из смеси всего четырех элементарных единиц, обозначаемых буквами A, T, G, C.

Прочитав 3 млрд «букв» генома, ученые были удивлены тем, что только 1% генома кодирует белки. Если в начале проекта предполагалось, что таких генов у человека не менее 100 тыс., то в процессе работы оценка снизилась до 80 тыс., потом — до 50–60, а в результате оказалось, что этих генов около 20 тысяч. Только вдумайтесь: геном примитивных пекарских дрожжей содержит 6 тыс. генов. Неужели человек всего в три-четыре раза сложнее, чем дрожжи? Но где же тогда в геноме спрятана наша сложность?

Очевидная гипотеза указывала, что собака зарыта в остальной части генома. Проблема же заключалась в том, что на первый взгляд 98% геномного текста казались полной абракадаброй. В результате основную по объему часть генома долго называли «мусорной» ДНК. Эволюционно ДНК удлинялась по мере усложнения организмов. И хотя объем человеческой ДНК по сравнению с геномом бактерии увеличился на три порядка, генов в нашем геноме больше, чем у бактерии, всего на порядок. Размер всего генома вырос именно за счет не кодирующей белки части.

Но нельзя утверждать, что об этой части генома ученым вообще ничего не было известно. «Еще до начала нового проекта изучения генома ENCODE в различных экспериментах было показано, что в этой части генома есть регуляторные участки, управляющие работой генов, — рассказывает один из участников проекта, соавтор двух опубликованных на эту тему статей профессор Гарвардского университета и генетик-исследователь Шамиль Сюняев. — Сравнительно-геномные исследования также показывали, что в геномах человека, крысы, обезьяны, как в кодирующей части, так и в некодирующей, есть много совершенно одинаковых областей. И, по всей видимости, это важные для живых существ области. Поэтому стартовал проект, который должен был понять функции некодирующей части генома».

Пилотная фаза проекта длилась четыре года. Ставилась задача расшифровать 1% генома. «В этот процент входили как специально отобранные, важные с медицинской точки зрения куски, по идее, связанные с некоторыми болезнями, а также чисто случайные куски, выбранные методом тыка, — продолжает Шамиль Сюняев. — Пилотная часть также позволила отработать все методики и технологии, которые были известны до проекта и созданы во время него». По результатам пилотной части, которая закончилась в 2007 году, стало ясно, что «мусорную» ДНК сильно недооценивали. Как заметил координатор проекта ENCODE Эван Бирни из Европейского института биоинформатики в Хинкстоне под Кембриджем, термин «мусорная ДНК» пора выбросить в мусорную корзину. Началась вторая фаза проекта по дальнейшей расшифровке генома, которая закончилась в этом году.

Белковая фабрика

Геном хранится в ядре каждой клетки. Напомним тем, кто забыл школьную биологию: геном — это длинная полимерная молекула, состоящая из повторяющихся блоков — нуклеотидов. Цепочек в ДНК две, и они образуют спираль. В каждой из цепочек нуклеотиды как бы стоят друг напротив друга. Они связаны по принципу комплементарности: A только с T, G только с C. Если ДНК растянуть, она вытянется на два метра. Тем не менее она очень плотно упакована в крошечном ядре клетки. Кроме того что она сильно скручена, она еще и облеплена различными белками, комплекс которых называют хроматином. Если посмотреть, как ДНК выглядит в ядре, она покажется клубком запутанных ниток. Тем не менее ее архитектура, по всей видимости, строго выверена.

Две нитки нужны в ДНК, в частности, для дублирования информации. Для работы генома нужна лишь одна нить. На ней есть участки, в которых заложена информация о структуре белка, — это гены. Если организму понадобился некий белок, активируется определенный ген. Для этого нужно произвести массу действий — отправить к гену регуляторы, которые инициируют транскрипцию (копирование информации с ДНК на РНК). Другие участники процесса расчистят ДНК от хроматина, чтобы регуляторы смогли сесть на нитку ДНК. Потом прибудет еще ряд товарищей для того, чтобы усилить транскрипцию, потом на участок перед геном-промотором сядет полимераза и начнет ползти по ДНК. Ее цель — образовать РНК из новых нуклеотидов, которые будут комплементарны нуклеотидам гена. Этот этап называется транскрипцией. Дальше начинается этап трансляции — по схеме, записанной в мРНК, будет делаться белок. Образованная мРНК состоит из двух типов участков — экзонов, несущих информацию о структуре белка, и интронов — не несущих этой информации. Перед синтезом белков интроны нужно вырезать из мРНК, чем и займутся специальные ферменты. Синтез происходит в рибосомах, куда подтаскиваются аминокислоты — блоки для будущего белка. И там будет строиться белковая цепь, которая затем свернется в трехмерную структуру. Белок почти готов. После так называемой посттрансляционной модификации, которая может регулировать его активность, продолжительность жизни и т. д., белок может отправляться на работу. Это весьма упрощенная схема того, как происходит синтез белка. Если описывать этот процесс научно, то мы увидим, что в нем огромное количество участников, обслуживающих процесс синтеза белка и управляющих им.

Откуда эти участники? Отчасти это те же белки. Но еще и очень много различных РНК. Ученые знали о них, но не представляли себе, что их так много, что и стало главным открытием проекта ENCODE. Оказалось, что целых 80% генома транскрибируется в РНК. И часть этих РНК входит в число этого огромного аппарата управления геномом.

Два вида РНК — транспортные и рибосомные — были известны давно. Они участвуют в процессе трансляции. Рибосомные РНК составляют основу рибосомы, в которой происходит создание белка. Здесь будет собираться белковая цепь из аминокислот, которые подтаскивают к хромосоме транспортные РНК. Каждая РНК тащит какую-то одну из 20 аминокислот.

Профессиональные управленцы

Сравнительно недавно были открыты так называемые микро-РНК, обладающие важными функциями. И они тоже занимают существенную долю в некодирующей части генома. Оказалось, что микро-РНК — «профессиональные регулировщики». Они регулируют процессы в клетке на многих уровнях. К примеру, в ядре они с другими белковыми факторами могут влиять на то, включать процесс транскрипции или нет. Перед началом транскрипции они могут сворачивать или разворачивать хроматин (упаковку ДНК) — это нужно для того, чтобы дать или не дать доступ к «голой» ДНК регуляторным факторам. Садясь на матричную РНК, они могут регулировать сшивку экзонов, как бы указывая ферментам, в каком месте резать эту РНК, а в каком нет. Это очень важная функция, поскольку в результате такой регулировки экзоны одной мРНК могут сшиваться в различных комбинациях и, соответственно, давать жизнь разным белкам. Известна одна такая длинная РНК, из которой можно сделать 85 тыс. разных белков! Наши 20 тыс. белок-кодирующих генов, оказывается, могут быть основой для синтеза белков, которых в 10 раз больше, чем генов.

Уже не в ядре, а в цитоплазме, где происходит процесс трансляции и сборки белка, микро-РНК могут регулировать трансляцию мРНК: микро-РНК садится на мРНК, как бы законсервировав ее на некоторое время. Многочисленные функции этой армии регулировщиков позволяют понять, откуда происходит сложность человеческого организма и зачем ему такой огромный «бюрократический аппарат». Эти управленцы вносят столько указаний одному проценту генов, кодирующих белки, что мы можем только подивиться, как из этого получается большое количество разнообразных белков, работающих более чем в 200 типах клеток нашего организма!

Но оказалось, что и в остальной, некодирующей, части генома находятся элементы, которые не транскрибируются, но тоже принимают заметное участие в регулировании работы белок-кодирующих генов, а также в поддержании архитектуры генома. Например, перед геном, кодирующим белок, есть регуляторный участок — промотор, позволяющий этому гену включаться. Другой регуляторный участок отвечает за то, что этот ген должен включиться только в определенных клетках определенного органа, третий — за то, что он со временем должен замолчать, и т. д. Эти участки — места, с которыми будут связываться регуляторные белки или РНК. Но есть, к примеру, и такие участки, которые будут влиять на усиление транскрипции, так называемые энхансеры.

Информация об этих регулирующих участках в некодирующей части генома была известна и раньше, но никто не предполагал, что их так много и что практически все они принимают участие в общей работе генома. Это еще более усилило впечатление от сложной управленческой архитектуры генома, где на один ген приходится несколько десятков менеджеров. Правда, как заметил Шамиль Сюняев, архитектура эта не очень совершенна: «Исследования показали, что потенциальных мест связывания различных регуляторов с ДНК в геноме очень и очень много. Но это не обязательно означает, что регулятор там реально функционирует. Где-то он может связываться с ДНК случайно — из комбинаторных соображений, потому что ДНК очень большая. И скорее всего, во многих местах он ничего не делает. А где-то выполняет полезную функцию. А где-то случайную. Мы не всегда это знаем». В общем, ученым не так просто разобраться в этом запутанном аппарате.

Если бы Господь решал задачу управления генами сейчас, он сделал бы гораздо более совершенную и изящную систему. Эволюция же наворачивала один блок, решающий определенную задачу, на другой, иногда неумело и не очень красиво. Профессор университета Тафтса (Бостон) Сергей Миркин сравнивает этот процесс с историей создания программы Microsoft Office. Программисты говорят, что это самая ужасная и несовершенная программа, она строилась путем наворачивания старых блоков. И теперь программа занимает огромную часть оперативной памяти. Но тем не менее свою задачу она выполняет. «Нам тоже, как представляется, не нужен такой огромный геном. Просто это следствие того, как эти части солянки из опробованных эволюцией кусков собирались», — говорит Сергей Миркин.

А теперь придут художники баталисты

Общественность неоднозначно отнеслась к результатам проекта. На него потрачено более 185 млн долларов. Конечно, это не 3 млрд, как на «Геном человека», но все же это деньги налогоплательщиков, которые несколько десятков лет назад уже выражали свое недовольство огромными вложениями в изучение рака с очень малыми бонусами: рак в большинстве случаев по-прежнему убивает. Проект ENCODE тоже не обещает им сиюминутных практических результатов. Во-вторых, эти деньги — заметная часть бюджета на фундаментальные исследования, значит, их недополучают многочисленные лаборатории, работающие над менее масштабными, но более конкретными и, возможно, более продуктивными проектами. В-третьих, полной картины проект не дает, а значит, встает вопрос о дальнейших исследованиях. Стоит ли затевать еще одну фазу мегапроекта? Возможно, это вопрос политический. Для ученых само собой разумеется, что исследования будут продолжаться, в рамках ли мегапроекта или без него.

«Ценность этого проекта заключается в том, что создана огромная база данных, из которых можно дальше делать красивую биологию, — комментирует известный российский ученый, специалист по биоинформатике Михаил Гельфанд. — И пафос весь в том, что сейчас можно посмотреть на работу всех генов одновременно и пытаться описывать не отдельные гены, чем более или менее успешно занимаются биологи, а задаваться вопросом о работе системы в целом». В то же время эта база дает возможность как бы растаскивать данные по кусочкам и отвечать на очень конкретные вопросы работы отдельных генов или групп генов в новом свете.

Сергей Миркин образно сравнил результаты проекта ENCODE с наброском панорамы Бородинского сражения: «Представьте, что есть набросок: где-то французы, где-то русские, где-то смешались кони, люди. Все это некий общий план. А вот теперь должны прийти художники и прорисовать детали. Один из них гениально нарисует подметку сапога Багратиона, другой — глаз лошади и так далее. Так и в этом проекте: есть огромная база данных, фактически каталог элементов генома, над которыми в течение многих лет будут работать ученые-экспериментаторы».