Страница 6 из 17
По методике Сенгера цепь ДНК химически делится на участки по 17–20 звеньев. При этом каждый кусочек снабжается специальным «замком-липучкой», позволяющим ему при необходимости снова прилипать к общей цепи. Причем не где попало, а там, где надо экспериментаторам.
Такой участок представляет собой как бы слово, состоящее из отдельных «букв»-нуклеотидов. Сами участки по желанию ученых могут быть «рассыпаны» на отдельные «буквы», а затем собраны в новое слово с добавлением новых букв. Скажем, было слово «молоко», а получилось «локомотив» — буквы почти все те же, а слово совершенно иное.
Причем если, например, в русском алфавите свыше трех десятков букв, то биохимики ухитряются записывать свои послания всего четырьмя «буквами» — азотистыми основаниями или нуклеотидами, в число которых входят аденин, гуанин, тимин и цитозин — сокращенно А, Г, Т, Ц.
Как это может быть? Вспомним хотя бы азбуку Морзе — в ней для кодирования любой буквы обходятся лишь двумя знаками — точкой и тире. «Азбука жизни», конечно, сложнее «морзянки». Но мы с вами не можем слишком глубоко вдаваться в подробности, поскольку для их описания не хватит годовой подписки журнала. Скажем лишь, что для того, чтобы знать, где в растворе какое «слово», кусочки ДНК поначалу помечали радиоактивными метками. А собирали вновь с помощью так называемого праймера — своего рода затравки, к которой прилипают последующие фрагменты.
В более современном варианте нуклеотиды-буквы помечают не радиацией, как раньше, а четырьмя разными флуоресцентными красителями. В случае же недостатка какой-либо из букв проводят ее размножение при помощи полимеразной цепной реакции (ПЦР). А воздействуя на отдельные нуклеотиды электрическим полем, их распределяют в нужном экспериментаторам порядке…
В общем, как видите, премудростей в этом деле предостаточно, не случайно многие участники исследований были награждены всевозможными престижными премиями. Скажем, американец Кэрри Муллис, сумевший изобрести в 1983 году реакцию ПЦР, через 8 лет получил за нее высочайшую награду в мире науки, носящую имя Нобеля.
Схема конвертации данных (сонета Шекспира) в ДНК-массив: а — двоичный код; b — троичный код; с — ДНК-код; d — дублированные фрагменты ДНК с шаговым смещением 25 бит (желтым отмечены участки ДНК с адресными метками).
Исследователи подвигались шаг за шагом. Например, в 1986 году «механизм» полимеразной цепной реакции был существенно улучшен, поскольку удалось использовать ДНК-полимеразы из бактерий, не боящихся высоких температур, при которых идут некоторые реакции.
Правда, при этом выяснилось, что одна из первых термостабильных ДНК-полимераз, которая была выделена из бактерий Thermus aquaticus, оказалась склонна к ошибкам в правописании ДНК-слов. Так что пришлось еще придумывать, как обнаруживать и исправлять ошибки…
За прошедшие десятилетия биохимики немало потрудились, совершенствуя методики и аппаратуру для работы с ДНК-молекулами. Сегодня они уже умеют считывать последовательности белков без специальных реагентов. Для этого цепочку ДНК затягивают с помощью электрического поля в нанопору — «пещеру» с лазом около 1 нм в диаметре. И пока фрагмент ДНК пробирается через пещеру, чувствительный вольтметр фиксирует изменение напряжения, а по «электрическому портрету» ученые способны описать молекулярную структуру цепи.
Итак, сотрудники Европейского института биоинформатики, о которых сказано в начале статьи, научились синтезировать «слова-фрагменты» ДНК и практически безошибочно эти слова прочитывать. Они синтезировали пять файлов, содержащих полное собрание сонетов Шекспира в формате ASCII, статью первооткрывателей структуры ДНК Джеймса Уотсона и Френсиса Крика «Молекулярная структура нуклеиновых кислот» в формате PDF, цветное фото здания их лаборатории, 26-секундный МРЗ-файл с фрагментом речи Мартина Лютера Кинга «У меня есть мечта», а также файл с так называемым алгоритмом Хаффмана, который использовался для конвертации бинарных файлов в вид, удобный для представления данных через последовательность азотистых оснований ДНК. При этом общий объем полезных данных, записанных и считанных с ДНК, составил 5,2 мегабита.
Исходную информацию переслали коллегам в США.
Американские биотехнологи, использовав приложенную инструкцию, синтезировали несколько сотен тысяч нужных фрагментов ДНК, высушили их в вакууме и выслали получившуюся щепотку пыли в запаянной ампуле обратно в Англию. Там «запись» воспроизвели и убедились, что она читается почти со стопроцентной точностью.
Всего для записи информации было использовано 153 335 синтезированных коротких цепочек ДНК по 117 нуклеотидов (117 битов) каждая. Данные кодировались в четырех блоках по 25 нуклеотидов. В оставшихся 17 нуклеотидах (17 бит) были записаны адресные метки, необходимые для сборки данных в файловый массив.
Кодирование происходило в три этапа. Двоичный код, в котором были представлены данные, сначала конвертировали на компьютере в троичный. Далее 8-битные блоки данных представлялись в виде последовательности из пяти троичных чисел, или тритов (0, 1, 2). После этого триты конвертировались в код из трех нуклеотидов. Троичная кодировка позволяла не только сжать данные, но и уменьшить вероятность ошибок при последующем считывании ДНК и реконструкции двоичного массива.
Как уже сказано, любая ДНК представляет собой полимерную молекулу, в состав которой входят четыре нуклеотида (аденин, гуанин, тимин и цитозин — А, Г, Т, Ц). Для конвертации троичного кода достаточно трех, поэтому в каждом последующем троичном блоке основания можно было комбинировать по-разному, ведь один из четырех нуклеотидов в них мог отсутствовать. Это гарантировало, что при синтезе ДНК два одинаковых нуклеотида не пришлось бы стыковать в одну полимерную цепочку, что снижало вероятность ошибок при последующей реконструкции данных.
Справедливости ради отметим, что команда исследователей, описавшая технологию производства своей ДНК-памяти в журнале Nature, не единственная в своем роде. Группа Джорджа Чёрча из Гарварда сообщила в журнале Science, что ей тоже удалось записать и считать с синтезированного массива коротких одноцепочечных ДНК несколько файлов, притом такого же объема — 5,2 мегабита.
Единственное существенное отличие в технологиях двух групп заключается в схеме кодирования двоичного потока в последовательность нуклеотидов. Так, группа Чёрча использовала простую схема конвертации, приняв пару разных оснований (например, АГ и ТЦ) за условные «ноль» и «единицу», а команда Сенчера использовала более сложный троичный алгоритм.
У СОРОКИ НА ХВОСТЕ
РАНЬШЕ БЫЛО ТЕПЛЕЕ. В древней Антарктиде было значительно теплее, чем ныне. На шестом континенте даже росли деревья. К такому выводу пришла группа американских ученых из Лаборатории реактивного движения НАСА в Пасадине, а также Университетов Южной Калифорнии в Лос-Анджелесе и штата Луизиана в Батон-Руже.
В своей работе ученые использовали радиоуглеродный анализ остатков растений, обнаруженных на шельфе Антарктиды под морем Росса, и методы компьютерного моделирования. Согласно выводу специалистов, 15–20 млн. лет тому назад средняя летняя температура на побережье Антарктиды была на 11 градусов Цельсия выше, чем в наши дни, и достигала 7 градусов тепла. Пик «озеленения» Антарктиды якобы пришелся на период, лежащий между 16,4 млн. и 15,7 млн. лет тому назад.