Страница 69 из 134

Интернет-журнал "Домашняя лаборатория", 2008 №5

"Журнал «Домашняя лаборатория»"

1. Розен В.Б. Основы эндокринологии. М.: Изд-во МГУ, 1994.

2. Альберте Б., Брей Д., Льюис Дж. и др. Молекулярная биология клетки. М.: Мир, 1994. Т. 2. С. 338–393.

3. Ткачук В. А. Введение в молекулярную эндокринологию. М.: Изд-во МГУ, 1983.

4. Авдонин П.В., Ткачук В.А. Рецепторы и внутриклеточный кальций. М.: Наука, 1994

Биоинформатика

Лекция № 25

А.А. Миронов

В настоящее время слово биоинформатика стало очень модным, оно употребляется в трех разных смыслах. Первый смысл связывают с телепатией, экстрасенсорикой и т. д., об этом мы говорить не будем. Второй смысл связан с применением компьютеров для изучения любого биологического объекта, но эту тему мы тоже не будем затрагивать. Речь пойдет о биоинформатике в узком смысле слова, а именно о применении компьютерных методов для решения задач молекулярной биологии, в основном анализа разных последовательностей (аминокислотных, нуклеотидных). Эта наука возникла в 1976–1978 годах, окончательно оформилась в 1980 году со специальным выпуском журнала «Nucleic Acid Research» (NAR). Биоинформатика включает в себя:

• базы данных, в которых хранится биологическая информация

• набор инструментов для анализа тех данных, которые лежат в таких базах

• правильное применение компьютерных методов для правильного решения биологических задач

На рисунке показаны соотношение этапов развития биоинформатики (справа) с возникновением разных экспериментальных методик и полученных результатов экспериментальных исследований.

Технология ∙ Биоинформатика

1962 ∙ — ∙ Молекулярные часы

1965 ∙ Секвенирование tRNA ∙ База данных PIR

1970 ∙ Обратная транскрипция ∙ Алгоритм выравнивания NW

1972 ∙ Клонирование ∙ —

1980 ∙ Секвенирование ∙ База данных PDB. Спец ∙ выпуск NAR, Базы данных нукл. Послед

1981 ∙ — ∙ Алгоритм выравнивания SW

1982 ∙ Секвенирование ДНК фага лямбда ∙ -

1983 ∙ PCR ∙ Алгоритм поиска по базе данных WL

1985 ∙ Секвенирование ДНК вирусов ∙ FASTA — поиск по базе данных

1987 ∙ — GeneBank. Профили

1989 ∙ Программа "Геном человека" ∙ Swiss-Prot. NCBI

1991 ∙ EST ∙ -

1992 ∙ Первая хромосома дрожжей ∙ BLOSSUM

1993 ∙ Автоматическое секвенирование ∙ -

1995 ∙ Первый геном бактерии ∙ База данных SCOP

1996 ∙ Первый геном архейный ∙ -

1997 ∙ — ∙ PSI-BLAST. Кластеры ортологичных генов

1998 ∙ Геном червя ∙ -

2001 ∙ Геном человека ∙ -

В 1962 году была придумана концепция "молекулярных часов", в 1965 была секвенирована тРНК, определена ее вторичная структура, в это же время были созданы базы данных PIR для хранения информации об аминокислотных последовательностях. В 1972 году было придумано клонирование. В 1978 году были разработаны методы секвенирования, была создана база данных пространственных структур белков. В 1980 был выпущен спецвыпуск журнала NAR, посвященный биоинформатике, затем были придуманы некоторые алгоритмы выравнивания последовательностей, о которых речь пойдет дальше. Дальше был придуман метод ПЦР (полимеразная цепная реакция), а в биоинформатике — алгоритмы поиска похожих фрагментов последовательностей в базах данных. В 1987 году оформился GeneBank (коллекция нуклеотидных последовательностей) и т. д.

Биолог в биоинформатике обычно имеет дело с базами данных и инструментами их анализа. Теперь разберемся, какие базы данных бывают в зависимости от того, что в них помещают. Первый тип — архивные базы данных, это большая свалка, куда любой может поместить все, что захочет. К таким базам относятся

• GeneBank & EMBL — здесь хранятся первичные последовательности

• PDB — пространственные структуры белков, и многое другое.

В качестве курьеза могу привести пример: в архивной базе данных указано,

что в геноме археи (архебактерии) есть ген, кодирующий белок главного комплекса гистосовместимости, что является полной чепухой.

Второй тип — курируемые базы данных, за достоверность которых отвечает хозяева базы данных. Туда информацию никто не присылает, ее из архивных баз данных отбирают эксперты, проверяя достоверность информации — что записано в этих последовательностях, какие есть экспериментальные основания для того, чтобы считать, что эти последовательности выполняют ту или иную функцию.

К базам данных такого типа относятся:

• Swiss-Prot — наиболее качественная база данных, содержащая аминокислотные последовательности белков

• KEGG — информация о метаболизме (такая, которая представлена на карте метаболических путей, которую те, кто ходит на лекции, видели на лекции № 2)

• FlyBase — информация о Drosophila

• COG — информация об ортологичных генах.

Поддержание базы требует работы кураторов или аннотаторов. Тем не менее, даже в курируемых базах данных могут встречаться курьезные надписи, например такая забавная надпись:

CAUTION: AN ORF CALLED DSDC WAS ORIGINALLY (REF. 3) ASSIGNED TO THE WRONG DNA STRAND AND THOUGHT TO BE A D-SERINE DEAMINASE ACTIVATOR, IT WAS THEN RESEQUENCED BY REF. 2 AND STILL THOUGHT TO BE "DSDC", BUT THIS TIME TO FUNCTION AS A D-SERINE PERMEASE. IT IS REF.1 THAT SHOWED THAT DSDC IS ANOTHER GENE AND THAT THIS SEQUENCE SHOULD BE CALLED DSDX. IT SHOULD ALSO BE NOTED THAT THE C-TERMINAL PART OF DSDX (FROM 338 ONWARD) WAS ALSO SEQUENCED (REF.6 AND REF. 7) AND WAS THOUGHT TO BE A SEPARATE ORF (YES, DON'T WORRY, WE ALSO HAD PROBLEMS UNDERSTANDING WHAT HAPPENED!).

По крайне мере здесь кураторы базы данных честно признаются, что не знают, как это случилось.

Третий тип — производные базы данных. Такие базы получаются в результате обработки данных из архивных и курируемых баз данных. Сюда входит:

• SCOP — База данных структурной классификации белков (описывается структура белков)

• PFAM — База данных по семействам белков

• GO (Gene Ontology) — Классификация генов (попытка создания набора терминов, упорядочивания терминологии, чтобы один ген не назывался по разно му, и чтобы разным генам не давали одинаковые названия)

• ProDom — белковые домены

• AsMamDB — альтернативный сплайсинг у млекопитающих

И интегрированные базы данных, в которых вся информация (курируемая, не курируемая) свалена в кучу, и введя имя гена, можно найти всю связанную с ним информацию — в каких организмах встречается, в каком месте генома локализован, какие функции выполняет и т. д.

• NCBI Entrez — доступ к информации о нуклеотидных и аминокислотных последовательностях и структурах

• Есосус — все о Е. coli — гены, белки, метаболизм и пр.

Теперь перейдем к рассмотрению инструментов биоинформатике. Инструменты определяются задачами, которые мы хотим решать.

Основу биоинформатики составляют сравнения. Если у нас есть, например, аминокислотная последовательность, о которой у нас есть экспериментальные данные, и известны ее функции, и другая, похожая на нее последовательность, мы можем предположить, что эти последовательности выполняют сходные функции. Это задача поиска сходства последовательностей

Другая задача связана с анализом генома. Недавно было объявлено, что полностью просеквенирован геном человека, но так же просеквенировали геномы и других организмов: три генома растений, мыши, крысы, кошки, собаки, курицы, рыбы, лягушки завершается, шимпанзе завершается, две дрозофилы сделаны, малярийный комар, червяки, дрожжи и т. д. — всего около 30 видов эукариотических геномов. Также просеквенированы сотни бактериальных геномов. Один бактериальный геном можно просеквенировать в хорошо оборудованной лаборатории за неделю. При этом получают длинную нуклеотидную последовательность нуклеотидов. Там есть гены — белок-кодирующие участки, и участки, кодирующие тРНК и рРНК. Возникает задача найти эти гены. Другая задача — поиск сигналов в ДНК, то есть тех участков ДНК, которые отвечают за регуляцию — сайты связывания регуляторных белков, элементы вторичной структуры мРНК, которая транскрибируется с этого гена и др.