Страница 6 из 17

Юный техник, 2013 № 05

Журнал Юный техник

По методике Сенгера цепь ДНК химически делится на участки по 17–20 звеньев. При этом каждый кусочек снабжается специальным «замком-липучкой», позволяющим ему при необходимости снова прилипать к общей цепи. Причем не где попало, а там, где надо экспериментаторам.

Такой участок представляет собой как бы слово, состоящее из отдельных «букв»-нуклеотидов. Сами участки по желанию ученых могут быть «рассыпаны» на отдельные «буквы», а затем собраны в новое слово с добавлением новых букв. Скажем, было слово «молоко», а получилось «локомотив» — буквы почти все те же, а слово совершенно иное.

Причем если, например, в русском алфавите свыше трех десятков букв, то биохимики ухитряются записывать свои послания всего четырьмя «буквами» — азотистыми основаниями или нуклеотидами, в число которых входят аденин, гуанин, тимин и цитозин — сокращенно А, Г, Т, Ц.

Как это может быть? Вспомним хотя бы азбуку Морзе — в ней для кодирования любой буквы обходятся лишь двумя знаками — точкой и тире. «Азбука жизни», конечно, сложнее «морзянки». Но мы с вами не можем слишком глубоко вдаваться в подробности, поскольку для их описания не хватит годовой подписки журнала. Скажем лишь, что для того, чтобы знать, где в растворе какое «слово», кусочки ДНК поначалу помечали радиоактивными метками. А собирали вновь с помощью так называемого праймера — своего рода затравки, к которой прилипают последующие фрагменты.

В более современном варианте нуклеотиды-буквы помечают не радиацией, как раньше, а четырьмя разными флуоресцентными красителями. В случае же недостатка какой-либо из букв проводят ее размножение при помощи полимеразной цепной реакции (ПЦР). А воздействуя на отдельные нуклеотиды электрическим полем, их распределяют в нужном экспериментаторам порядке…

В общем, как видите, премудростей в этом деле предостаточно, не случайно многие участники исследований были награждены всевозможными престижными премиями. Скажем, американец Кэрри Муллис, сумевший изобрести в 1983 году реакцию ПЦР, через 8 лет получил за нее высочайшую награду в мире науки, носящую имя Нобеля.

Схема конвертации данных (сонета Шекспира) в ДНК-массив: а — двоичный код; b — троичный код; с — ДНК-код; d — дублированные фрагменты ДНК с шаговым смещением 25 бит (желтым отмечены участки ДНК с адресными метками).

Исследователи подвигались шаг за шагом. Например, в 1986 году «механизм» полимеразной цепной реакции был существенно улучшен, поскольку удалось использовать ДНК-полимеразы из бактерий, не боящихся высоких температур, при которых идут некоторые реакции.

Правда, при этом выяснилось, что одна из первых термостабильных ДНК-полимераз, которая была выделена из бактерий Thermus aquaticus, оказалась склонна к ошибкам в правописании ДНК-слов. Так что пришлось еще придумывать, как обнаруживать и исправлять ошибки…

За прошедшие десятилетия биохимики немало потрудились, совершенствуя методики и аппаратуру для работы с ДНК-молекулами. Сегодня они уже умеют считывать последовательности белков без специальных реагентов. Для этого цепочку ДНК затягивают с помощью электрического поля в нанопору — «пещеру» с лазом около 1 нм в диаметре. И пока фрагмент ДНК пробирается через пещеру, чувствительный вольтметр фиксирует изменение напряжения, а по «электрическому портрету» ученые способны описать молекулярную структуру цепи.

Итак, сотрудники Европейского института биоинформатики, о которых сказано в начале статьи, научились синтезировать «слова-фрагменты» ДНК и практически безошибочно эти слова прочитывать. Они синтезировали пять файлов, содержащих полное собрание сонетов Шекспира в формате ASCII, статью первооткрывателей структуры ДНК Джеймса Уотсона и Френсиса Крика «Молекулярная структура нуклеиновых кислот» в формате PDF, цветное фото здания их лаборатории, 26-секундный МРЗ-файл с фрагментом речи Мартина Лютера Кинга «У меня есть мечта», а также файл с так называемым алгоритмом Хаффмана, который использовался для конвертации бинарных файлов в вид, удобный для представления данных через последовательность азотистых оснований ДНК. При этом общий объем полезных данных, записанных и считанных с ДНК, составил 5,2 мегабита.

Исходную информацию переслали коллегам в США.

Американские биотехнологи, использовав приложенную инструкцию, синтезировали несколько сотен тысяч нужных фрагментов ДНК, высушили их в вакууме и выслали получившуюся щепотку пыли в запаянной ампуле обратно в Англию. Там «запись» воспроизвели и убедились, что она читается почти со стопроцентной точностью.

Всего для записи информации было использовано 153 335 синтезированных коротких цепочек ДНК по 117 нуклеотидов (117 битов) каждая. Данные кодировались в четырех блоках по 25 нуклеотидов. В оставшихся 17 нуклеотидах (17 бит) были записаны адресные метки, необходимые для сборки данных в файловый массив.

Кодирование происходило в три этапа. Двоичный код, в котором были представлены данные, сначала конвертировали на компьютере в троичный. Далее 8-битные блоки данных представлялись в виде последовательности из пяти троичных чисел, или тритов (0, 1, 2). После этого триты конвертировались в код из трех нуклеотидов. Троичная кодировка позволяла не только сжать данные, но и уменьшить вероятность ошибок при последующем считывании ДНК и реконструкции двоичного массива.

Как уже сказано, любая ДНК представляет собой полимерную молекулу, в состав которой входят четыре нуклеотида (аденин, гуанин, тимин и цитозин — А, Г, Т, Ц). Для конвертации троичного кода достаточно трех, поэтому в каждом последующем троичном блоке основания можно было комбинировать по-разному, ведь один из четырех нуклеотидов в них мог отсутствовать. Это гарантировало, что при синтезе ДНК два одинаковых нуклеотида не пришлось бы стыковать в одну полимерную цепочку, что снижало вероятность ошибок при последующей реконструкции данных.

Справедливости ради отметим, что команда исследователей, описавшая технологию производства своей ДНК-памяти в журнале Nature, не единственная в своем роде. Группа Джорджа Чёрча из Гарварда сообщила в журнале Science, что ей тоже удалось записать и считать с синтезированного массива коротких одноцепочечных ДНК несколько файлов, притом такого же объема — 5,2 мегабита.

Единственное существенное отличие в технологиях двух групп заключается в схеме кодирования двоичного потока в последовательность нуклеотидов. Так, группа Чёрча использовала простую схема конвертации, приняв пару разных оснований (например, АГ и ТЦ) за условные «ноль» и «единицу», а команда Сенчера использовала более сложный троичный алгоритм.

У СОРОКИ НА ХВОСТЕ

РАНЬШЕ БЫЛО ТЕПЛЕЕ. В древней Антарктиде было значительно теплее, чем ныне. На шестом континенте даже росли деревья. К такому выводу пришла группа американских ученых из Лаборатории реактивного движения НАСА в Пасадине, а также Университетов Южной Калифорнии в Лос-Анджелесе и штата Луизиана в Батон-Руже.

В своей работе ученые использовали радиоуглеродный анализ остатков растений, обнаруженных на шельфе Антарктиды под морем Росса, и методы компьютерного моделирования. Согласно выводу специалистов, 15–20 млн. лет тому назад средняя летняя температура на побережье Антарктиды была на 11 градусов Цельсия выше, чем в наши дни, и достигала 7 градусов тепла. Пик «озеленения» Антарктиды якобы пришелся на период, лежащий между 16,4 млн. и 15,7 млн. лет тому назад.