Аннотация расшифрованной последовательности.
После определения нуклеотидной последовательности встает следующая задача по ее аннотации, которая заключается в идентификации всех генов и кодируемых белков, мобильных элементов и семейств повторов, которые могут присутствовать в геноме.
Гены, кодирующие белки, обнаруживаются при анализе нуклеотидной последовательности самим исследователем или при помощи компьютерных программ. Гены, кодирующие белки, содержат так называемую открытую рамку считывания, которая начинается с инициирующего кодона АТГ и заканчивается одним из трех терминирующих кодонов - ТАА, ТАГ или ТГА. Сканирование последовательности ДНК для обнаружения открытой рамки считывания, ограниченной АТГ с одной стороны и стоп-кодоном с другой, является одной из стратегий поиска генов. Однако этот метод высоко эффективен только для аннотации бактериальных геномов. В случае же геномов эукариот продуктивность метода резко снижается, поскольку большинство эукариотических генов состоят из экзонов(кодирующих участков гена)иинтронов(некодирующих участков гена), и программа часто интерпретирует экзоны, как отдельные гены, т. к. стоп-кодоны часто встречаются в интронах.
Следует отметить, что последние версии программ настроены на поиск специфических черт открытых рамок: интрон-экзонных сочленений, 3'полиА-сигналов и преимущественных кодонов. Например, аланин может кодироваться четырьмя кодонами, но в геноме человека кодон ГЦЦ встречается в 41% аланиновых кодонов, а ГЦГ только в 11%. Наиболее часто встречающиеся кодоны присутствуют в экзонах, но не встречаются в интронах и пространствах между генами.
После обнаружения предполагаемых открытых рамок считывания для определения гена проводят поиск гомологичных последовательностей среди расшифрованных генов других организмов в базах данных (например, в Genbank).
Дата добавления: 2015-08-14; просмотров: 1660;