КАРТОЧКА ПРОЕКТА,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 18-14-00293

НазваниеШирокомасштабный анализ транскриптомов сельскохозяйственных растений: идентификация новых генов устойчивости к биотическому и абиотическому стрессу и оценка потенциала альтернативной трансляции мРНК.

РуководительАфонников Дмитрий Аркадьевич, Кандидат биологических наук

Организация финансирования, регионФедеральное государственное бюджетное научное учреждение "Федеральный исследовательский центр Институт цитологии и генетики Сибирского отделения Российской академии наук", Новосибирская обл

Года выполнения при поддержке РНФ 2018 - 2020 

КонкурсКонкурс 2018 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами»

Область знания, основной код классификатора 04 - Биология и науки о жизни, 04-207 - Системная биология; биоинформатика

Ключевые словаТранскриптом растений, высокопроизводительное секвенирование, резистентность, абиотический и биотический стресс, сельскохозяйственные культуры, рибосомальное профилирование, базы данных, конвейерная обработка данных.

Код ГРНТИ34.03.23


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Изучение транскриптомов растений с помощью высокопроизводительного секвенирования (RNA-seq) широко используется в настоящее время для решения таких задач как оценка экспрессии генов для разных генотипов и в разных условиях среды, идентификация последовательностей РНК, поиск маркеров к функционально важным генам. Созданы базы данных, в которых результаты экспериментов RNA-seq обработаны стандартными биоинформатическими процедурами, систематизированы и доступны пользователям в интерактивном виде через Интернет. Такие ресурсы важны для генетиков и селекционеров при анализе экспрессии генов в условиях стресса, поиска маркеров новых полезных генов. Однако в задаче анализа транскриптомов сельскохозяйственных растений остаются белые пятна. Во-первых, большинство публикуемых в статьях и базах результатов опираются лишь на последовательности, представленные в референсных геномах и аннотированных в них генах. В результате часть транскриптов, которые не обнаруживают значимого сходства с последовательностью референсного генома, не всегда депонируются в публичные БД и остаются недоступными большей части исследователей в области генетики и селекции растений. В то же время, «скрытая» часть транскриптома может содержать последовательности таких важных генов, как гены устойчивости к биотическим и абиотическим стрессам и являться важным источником информации для генетиков и селекционеров. Другой важной и мало изученной проблемой в анализе транскриптома является недооценка кодирующего потенциала мРНК. Показано, что с многих мРНК могут одновременно считываться несколько полипептидов – как изоформ одного белка, так и отличающихся аминокислотных последовательностей (часто небольших по размеру). Существуют данные, что роль таких альтернативных вариантов кодирования в мРНК существенна при активации ответа растений на патогены (Meteignier et al., 2017). Таким образом, несмотря на большой поток результатов в области секвенирования и анализа транскриптомов сельскохозяйственных растений, актуальной остается более полное исследование (1) состава транскриптомов сельскохозяйственных растений с точки зрения идентификации новых генов устойчивости к абиотическому и биотическому стрессу, а также (2) кодирующего потенциала транскриптома растений, в особенности, при ответе на стресс. Настоящий проект направлен на систематическое изучение «скрытой» части транскриптомов для сельскохозяйственных растений (ячмень, картофель, томат, кукуруза, рис) на основе de novo сборок и аннотации последовательностей, не имеющих сходства с референсным геномом. В фокусе аннотации транкриптомов будут гены устойчивости к абиотическому и биотическому стрессам. Для более точной оценки кодирующего потенциала трансриптома будет проведена широкомасштабная аннотация альтернативных открытых рамок считывания мРНК транскриптомов сельскохозяйственных растений на основе компьютерного предсказания. Для изучения роли альтернативной трансляции в ответе растения на стресс будет проведен эксперимент по рибосомальному профилированию двух генотипов картофеля (устойчивого и неустойчивого по отношению к золотистой нематоде) в условиях контроля и воздействия патогена. Будет проведена оценка изменения потенциала трансляции генов в ответ на воздействие патогена.

Ожидаемые результаты
Будет разработан биоинформатический конвейер для обработки результатов секвенирования транскриптома растений на основе de novo сборки и структурно-функциональной аннотации последовательностей с приоритетом на идентификацию генов устойчивости к биотическому и абиотическому стрессам. Особое внимание будет уделено транскриптам, которые не обнаруживаются в последовательности соответствующего референсного генома. С помощью конвейера будет проведен широкомасштабный анализ транскриптомов ячменя, картофеля, томата, кукурузы, риса. Для хранения результатов анализа и доступа к ним будет создана база данных. В ней будет содержаться информация о последовательностях транскриптов растений, не имеющих гомологии с референсным геномом, оценен уровень экспрессии мРНК, размечены последовательности открытых рамок считывания, получены соответствующие им аминокислотные последовательности, проведена их структурно-функциональная аннотация. Данный ресурс позволит проводить поиск последовательностей РНК для культурных растений, которые не представлены ни в референсных геномах сельскохозяйственных растений, не в публичных БД нуклеотидных последовательностей (NCBI Genbank и др.). Данный ресурс позволит существенно упростить работу генетиков и селекционеров по идентификации новых генов устойчивости, разработки маркеров. Для изучения кодирующего потенциала растений будут разработаны методы идентификации альтернативных открытых рамок считывания в последовательности мРНК. С их помощью будет проведен широкомасштабный анализ транскриптомов растений. Будут выявлены закономерности альтернативных открытых рамок считывания. Другим направлением будет являться систематический анализ альтернативных стартов трансляции в последовательностях транскриптомов на основе алгоритмов, разработанных в нашем коллективе. Результаты анализа и аннотации последовательностей транскриптомов будут организованы в виде БД, доступной через Интернет. Значимость такого ресурса будет высокой для исследователей в области генетики и селекции, которые смогут проводить поиск альтернативных продуктов генов (аминокислотных последовательностей). На основе широкомасштабного анализа будут получены закономерности, изменения функции белка в альтернативных вариантах трансляции. Для изучения изменения экспрессии генов на уровне трансляции в ответ на воздействие патогена будет проведено экспериментальное исследование двух генотипов картофеля, один из которых является устойчивым к золотистой нематоде, а другой неустойчивым. С помощью высокопроизводительного рибосомального профилирования (Ribo-Seq) нами будет изучено изменение транслятома картофеля в ответ на воздействие патогена. Значимость этой части исследования связано с тем, что картофель является одной из основных сельскохозяйственных культур в России. Его урожайность в трудных агроклиматических условиях нашей страны зависит от устойчивости к патогенам. Поэтому идентификация молекулярных механизмов устойчивости картофеля для нашей страны является важной задачей. С другой стороны, проведение экспериментов по рибосомальному профилированию для такой культуры как картофель ранее не проводилось. Поэтому наше исследование будет иметь важный фундаментальный аспект в изучении процессов трансляции для этого немодельного растительного организма.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2018 году
(1) Исследование «скрытой» части транскриптомов растений. На первом этапе проекта для анализа мы отобрали в базе ENA только SRA архивы, на которые есть ссылки в публикациях. Всего получилось 69 проектов. Эти данные включают 1421 SRA архива общим размером 695 ГБ и содержат данные по RNA-seq экспериментов картофеля, риса, кукурузы, ячменя и томата. В этом году мы сфокусировались на обработке именно этих данных, составивших первую версию нашей базы (обработано на текущий момент 1298 транскриптомов). Для сборки транскриптомов был разработан конвейер, включающий 4 последовательных шага: 1) Конфигурирование конвейера на основе метаинформации о транскриптоме; 2) Извлечение и переименование прочтений; 3) Фильтрация прочтений по качеству; 4) Сборка транскриптомов. Собранные транскриптомы мы выравнивали на референсные геномы соответствующих видов. Далее выполнялось разделение собранных транскриптов на 6 групп: Невыравненные транскрипты – т.е. не имеющие выравниваний с геномом. Множественные выравнивания - транскрипты, имеющие 2 или более выравнивания. Выравнивания с ошибками - транскрипты, выравнивание которых имеет разногласия с аннотацией. Уникальные выравнивания - транскрипты с ровно одним выравниванием, которое не содержит разногласий с аннотацией. Неаннотированные выравнивания - выравненные на геном транскрипты, для локусов которых нет аннотации в текущей версии. Для хранения полученных результатов нами была создана база данных транскриптомов растений с описанием их «скрытой» части, т.е. последовательностей, которые не были выравнены на референсный геном и последовательностей, которые не были выравнены на локусы референсного генома с известной аннотацией. Анализ транскриптомов. На основе анализа 1298 транскриптомов мы оценили распределение количества транскриптов в каждой из категорий. Оказалось, что доля выравненных транскриптов, составила в среднем 96% от их общего числа, а доля неправильно выравненных или множественно выравненных последовательностей составила около 1-2%, что говорит о высоком качестве выполненной de novo сборки. Следует отметить, что для риса доля невыравненных на геном последовательностей оказалась выше, чем для других организмов. Доля последовательностей, которые выровнялись на геном, но не попали на аннотированные локусы, составляет 20-25% от всех транскриптов, а доля невыравненных последовательностей составляет до 5%. Наши исследования будут направлены, прежде всего, на анализ транскриптов, представленных в категориях «Невыравненные» и «Неаннотированные». По итогам анализа 1298 транскриптомов было получено 3959863 невыравненных и 19452711 выравненных, но неаннотированных транскрипта. Этим транскриптам соответствуют 3555681 невыравненных и 15876096 неаннотированных «гена» (согласно аннотации Trinity). Таким образом, можно сделать вывод, что полученные по этим двум категориям данные по количеству последовательностей являются важными источниками новых последовательностей для поиска генов-кандидатов ответа на стресс. Анализ этих данных представляет большой интерес. Сравнение полученных транскриптов с последовательностями из специализированных баз данных по последовательностям растений показало, что контаминация векторными последовательностями незначительна (в среднем около 20 транскриптов на каждый транскриптом). В то же время среди невыравненных последовательностей нами были обнаружены последовательности, имеющие высокий уровень сходства с вирусами и другими патогенами растений, последовательностями некодирующих РНК растений, рибосомных РНК, повторов. Для 181 невыравненного на геном транскрипта и 1707 неаннотированных транскриптов было предсказано наличие полных последовательностей NBS-LRR доменов, для 3046 новых контигов и 25995 контигов было предсказано наличие частичных последовательностей NBS-LRR доменов. Таким образом, в результате анализа нам удалось идентифицировать почти 2 тысячи последовательностей, которые могут являться кандидатами в гены устойчивости растений, неизвестных ранее. Это демонстрирует, что стратегия поиска новых генов-кандидатов, предложенная нами в проекте, является оправданной. Полученные оценки пока еще являются грубыми, а результаты требуют дальнейшей перепроверки и уточнения. Однако несомненно, что «скрытая часть» транскриптома представляет большой интерес для исследования. Анализ генов ответа на абиотический стресс. Был проведен поиск информации о базах данных, описывающих гены ответа на стресс растений. Базы были разделены на две группы – общего характера, в которых аннотация представлена терминами GO (PLAZA, TAIR, AgriGO) и специализированные базы данных по генам ответа на стресс (stifdb2/stifdb, Droughtdb, psp_db). Был проведен выбор подходящих для решения задачи ресурсов. На примере аннотации генов A.thaliana мы сравнили сходство аннотаций генов стресса из этих баз данных (использовали пересечение списков генов – коэффициент Жаккара). Оказалось, что списки генов, связанных с ответом на стресс, существенно пересекаются для баз данных общего типа (TAIR, AgriGO, GO) и специфического типа (stifdb2/stifdb, Droughtdb, psp_db). Пересечение списков генов из баз двух разных типов, как правило, выражено в меньшей степени. Это приводит к выводу, что для выбора генов, ассоциированных со стрессом, необходимо использовать базы данных обоих типов. Мы провели исследование эволюционных характеристик генов стресса растений на примере арабидопсиса, чтобы оценить степень их консервативности и, следовательно, надежности определения функций генов по гомологии. Из БД TAIR и KEGG извлекли все ID генов A.thaliana, имеющие в описании GO термины, ассоциированные со стрессом. Выбирались гены только с надежной аннотацией. Мы рассматривали 7 типов стресса (солевой, тепловой, световой, водный, холодовой, осмотический, окислительный). На текущем этапе мы провели анализ генов стресса A.thaliana. Отметим, что для водных типов стресса (засуха/затопление) наборы генов оказались очень похожими и мы объединили их в одну группу. В процессе работы мы провели филостратиграфический анализ генов стресса у арабидопсиса. При помощи программы Orthoscape, с использованием аннотации БД KEGG, мы рассчитали филостратиграфические индексы (PAI) для каждого из генов арабидопсиса. Этот индекс (филостратум) находится в интервале 0-17 и характеризует «эволюционный возраст» гена (порядковый номер филостраты, характеризующий наиболее базальный таксон, общий для гена арабидопсиса и всех его ортологов). Индекс 0 соответствует клеточным организмам, 1 – эукариотам, 2 – растениям, и т.д., 17 соответствует арабидопсису. Наш анализ показал, что гены стресса у A.thaliana по сравнению с полным набором генов, содержат более высокую долю генов, которые произошли на раннем этапе эволюции. Полученные результаты показывают, что гены стресса содержат много консервативных последовательностей, что позволит их идентифицировать в de novo транскриптомах с высокой вероятностью. (2) Анализ альтернативных вариантов трансляции мРНК Мы провели оценку открытых рамок считывания (ОРС) в транскриптах, полученных в результате сборки как невыравненных, так и неаннотированных последовательностей, программой altORFev. Результаты показывают, что преимущественный механизм инициации трансляции - сканирование с подтеканием. Наименее редкий механизм – реинициация. Что касается влияния контекста, то его типы встречаются примерно одинаково, сильное влияние примерно в 30% случаев, слабое около 40% и умеренное близко к 30%. Уровень трансляции для большинства ОРС был идентифицирован как слабый (55%), умеренный уровень был обнаружен для 35% ОРС, высокий - для 10% и нулевой – в пределах 1%. Радикальных отличий в распределениях по этим параметрам между невыравненными и неаннотированными транскриптами обнаружено не было. Таким образом, нами были определены характеристики ОРС для аннотации трансриптов и проведен предварительный анализ собранных неаннотированных и невыравненных транскриптов. (3) Изучение роли альтернативной трансляции в ответе растений картофеля на поражение золотистой нематодой. Проведен анализ публикаций по рибосомальному профилированию (Ribo-seq). В результате анализа опубликованных данных и подготовительных экспериментов с РНК и рибосомами, решили модифицировать исходную постановку задачи и провести Ribo-Seq эксперимент на арабидопсисе. Будут анализироваться образцы корней после 6 часов обработки Салициловой кислотой (СК) в жидкой среде в концентрации 150 микромоль. Салициловая кислота - основной регулятор биотических стрессов растений, обработка СК в высоких дозах имитирует взаимодействие с патогеном и вызывает специфическую реакцию - системную приобретенную устойчивость (СПУ). Известны лишь некоторые механизмы СПУ, поэтому актуальным является профилирование рибосом растений, обработанных СК и анализ альтернативных пептидов и секреторных белков, обеспечивающих иммунную реакцию растения. В рамках проекта были получены образцы корней после обработки СК и в контроле, проводится выделение полисом и подготовка библиотек для секвенирования. Составлен детализированный протокол, на основе которого спланирован эксперимент и закуплены реактивы, ферменты и необходимые сопутствующие материалы для всех этапов пробоподготовки. Таким образом, все заявленные на этот год задачи были успешно выполнены.

 

Публикации

1. Дорошков А.В., Константинов Д.К., Афонников Д.А., Гунбин К.В. The evolution of gene regulatory networks controlling Arabidopsis thaliana L. trichome development BMC Plant Biology, - (год публикации - 2018).

2. Мустафин З.С., Константинов Д.К., Замятин В.И., Дорошков А.В., Лашин С.А., Афонников Д.А. Phylostratigraphic analysis shows the earliest origination of the stress associated genes in A.thaliana Preprints, - (год публикации - 2018).


Аннотация результатов, полученных в 2019 году
Проект направлен на широкомасштабный анализ транскрипомов растений: расшифровку структуры и функций «скрытой» части транскриптома ячменя, кукурузы, картофеля, томата и риса и оценку потенциала альтернативной трансляции мРНК у A.thaliana и картофеля на основании экспериментов по рибосомальному профилированию. Работа выполнялась по трем направлениям. В рамках анализа и аннотации «скрытой» части транскриптома сельскохозяйственных растений проведен дальнейший анализ транскриптов двух типов: (1) выравненных на референсные геномы, но локализованных в неаннотированных его участках и (2) невыравненных на референсный геном транскриптов. Проведена оценка уровня экспрессии транскриптов и показано, что за исключением генома томата, более 2/3 последовательностей имеют оценки TPM выше 1. Для томата эта доля близка к 50% транскриптов обоих типов. Проведена оценка доли нуклеотидов в неаннотированной части референсных геномов, которые демонстрируют значимый уровень транскрипции (TPM>1, экспрессия как минимум в двух транскриптах из как минимум двух экспериментов). Оказалась, что доля таких нуклеотидов сравнима (для риса и томата) или в несколько раз больше (для остальных организмов), чем известная часть аннотированных нуклеотидов. Это позволяет предположить возможную роль такой спонтанной экспрессии генома как источника новых генов. Проведена систематическая аннотация транскриптов, как нуклеотидных, так и транслируемых из них аминокислотных последовательностей. Среди нуклеотидных последовательностей идентифицированы фрагменты векторных последовательностей, длинные некодирующие РНК, повторенные последовательности и мобильные элементы растений. Проведено определение таксономической принадлежности последовательностей, не выравненных на референсный геном транскриптов (метатранскриптом растений) показана, что около половины из них принадлежит грибам, в том числе и патогенным. Нами составлен список генов ответа на абиотический стресс у A.thaliana и проведен эволюционный анализ этих генов и их генных сетей (тепловой, холодовой, окислительный, водный, световой, солевой, осмотический). Поведен анализ индексов PAI (возраст гена) и DI (давление отбора) при помощи программы Orthoscape. Показано, что существенная доля генов ответа на стресс у A.thaliana имеет древнее происхождение (таксоны «Cellular Organism» и «Eukaryota») и эволюционирует под сильным давлением стабилизирующего отбора. Сети взаимодействий генов имеют модульную структуру, в которой регуляторная компонента преобладает. Показана положительная связь между числом взаимодействий гена в генной сети и его возрастом. Среди полученных нами транскриптов мы идентифицировали гомологи генов ответа на абиотический стресс. Среди невыравненных на геном последовательностей выявлены гены, для которых ближайшим гомологом является последовательность из другого вида растений (но не референсный вид). Идентифицированы полные последовательности NBS-LRR доменов или их фрагменты для почти 30 тыс. последовательностей транскриптов. В транскриптоме ячменя мутантной линии i:BwAlm (альбинизм леммы и перикарпа) идентифицирован транскрипт, который не имеет сходства с референсным геномом ячменя. Проведена экспериментальная верификация наличия этой последовательности в геноме мутантной линии. Показано, что ген, который кодирует этот транскрипт, локализован в хромосоме 3HS мутантной линии. На основе информации о транскриптах, которые не выравнялись на геном, или выравнивались в ранее неаннотированные участки генома, их аннотации сформирована база данных «Crop OORT database» (Out Of Reference Transcripts). Для нее реализована тестовая версия web- интерфейса. Таким образом, полученные результаты свидетельствуют о функциональной важности полученных данных о «скрытой» части транскриптома растений, которая может быть полезной для решения селекционно-генетических задач. В рамках исследования альтернативных вариантов трансляции мРНК у растений с помощью методов биоинформатики мы провели сравнение предсказаний ОРС в мРНК растений с помощью программ altORFEv и TransDecoder. Для анализа использовались аннотированные мРНК из геномов A.thaliana и Z.mays. Также проводили подобный анализ для транскриптов, полученных в рамках данного проекта. Показано, что altORFEv позволяет идентифицировать большее количество коротких рамок считывания. Проведен эксперимент по рибосомальному профилированию образцов корней A.thaliana (контроль и воздействие салициловой кислоты в концентрации 150 мкМ в течении 6 часов). Биоинформатический анализ позволил выявить гены, для которых в условиях обработки салициловой кислотой уровень трансляции повышается (11811 генов) и понижается (12212 генов).

 

Публикации

1. Афонников Д.А., Генаев М.А., Шмаков Н.А., Мустафин З.С., Мухин А.В., Константинов Д.К., Дорошков А.В., Лашин С.А. Analysis of out of the reference transcripts from RNA-seq libraries in crops Plant Genetics, Genomics, Bioinformatics, and Biotechnology (PlantGen2019): The Fifth International Scientific Conference (June 24–29, 2019, Novosibirsk, Russia); Abstracts., стр. 24 (год публикации - 2019).

2. Генаев М.А, Шмаков Н.А, Мустафин З.С., Мухин А.М., Константинов Д.К., Дорошков А.В., Лашин С.А., Афонников Д.А. Поиск новых генов в «скрытой» части транскриптомов сельскохозяйственных растений Cборник тезисов Международного Конгресса «VII Съезд Вавиловского общества генетиков и селекционеров, посвященный 100-летию кафедры генетики СПбГУ, и ассоциированные симпозиумы» (18-22 июня 2019 г., Санкт-Петербург, Россия), стр. 528 (год публикации - 2019).

3. Д.А. Афонников, М.А. Генаев, Н.А. Шмаков, З.С. Мустафин, А.В. Мухин, Д.К. Константинов, А.В. Дорошков, С.А. Лашин Analysis of out of the reference transcripts from RNA-seq libraries in crops Proceedings of 9th Moscow Conference on Computational Molecular Biology MCCMB'19, - (год публикации - 2019).

4. Д.А. Афонников, М.А. Генаев, Н.А. Шмаков, З.С. Мустафин, А.М. Мухин, Д.К. Константинов, А.В. Дорошков, С.А. Лашин Поиск новых генов устойчивости сельскохозяйственных растений к биотическому и абиотическому стрессу на основе широкомасштабного анализа транскриптомов Марчуковские научные чтения - 2019 : Тезисы Международной конференции "Актуальные проблемы вычислительной и прикладной математики" / Ин-т вычислительной математики и матем. геофизики СО РАН. Новосибирск, 1‒5 июля 2019 г., с. 147-148 (год публикации - 2019).

5. Захар С. Мустафин, Владимир И. Замятин, Дмитрий К. Константинов, Алексей В. Дорошков, Сергей А. Лашин, Дмитрий А. Афонников Phylostratigraphic Analysis Shows the Earliest Origination of the Abiotic Stress Associated Genes in A. thaliana Genes, 10, 963 (год публикации - 2019).

6. Лашин С.А., Мустафин З.С., Замятин В.И., Константинов Д.К., Дорошков А.В., Афонников Д.А Эволюционный анализ генных сетей абиотического стресса растений Cборник тезисов Международного Конгресса «VII Съезд Вавиловского общества генетиков и селекционеров, посвященный 100-летию кафедры генетики СПбГУ, и ассоциированные симпозиумы» (18-22 июня 2019 г., Санкт-Петербург, Россия), стр. 134 (год публикации - 2019).

7. М.А. Генаев, Н.А. Шмаков, З.С. Мустафин, А.М.Мухин, Д.К. Константинов, А.В. Дорошков, С.А. Лашин, Д.А. Афонников Поиск Новых генов в "скрытой" части транскриптомов сельскохозяйственных растений Материалы международного конгресса «Биотехнология: состояние и перспективы развития» 25 - 27 ФЕВРАЛЯ 2019 г., с. 364-365 (год публикации - 2019).

8. Н. Шмаков, А.Глаголева, Г.Васильев, Д.Афонников, Е. Хлесткина Transcriptomic analysis of barley partial albinism 5th Conference on Cereal Biotechnology and Breeding jointly organized by EUCARPIA Cereal Section, Book of Abstracts, November 4–7, 2019, Budapest, Hungary, стр. 33 (год публикации - 2019).

9. Шмаков Н. А., Глаголева А.Ю., Афонников Д.А., Хлёсткина Е.К. Исследование частичного альбинизма ячменя с позиции транскриптомики Cборник тезисов Международного Конгресса «VII Съезд Вавиловского общества генетиков и селекционеров, посвященный 100-летию кафедры генетики СПбГУ, и ассоциированные симпозиумы» (18-22 июня 2019 г., Санкт-Петербург, Россия), стр. 876 (год публикации - 2019).

10. Шмаков Н.А., Глаголева А.Ю., Васильев Г.В., Афонников Д.А., Хлесткина Е.К Novel genomic marker for the Alm locus in barley identified based on transcriptome analysis Plant biotechnology in the postgenomic era, стр. 162-165. (год публикации - 2019).

11. Шмаков Н.А., Глаголева А.Ю., Дорошков А.В., Афонников Д.А., Хлесткина Е.К. Transcriptomic changes underlying partial albinism in barley nearly isogenic line Plant Genetics, Genomics, Bioinformatics, and Biotechnology (PlantGen2019): The Fifth International Scientific Conference (June 24–29, 2019, Novosibirsk, Russia); Abstracts., с. 187 (год публикации - 2019).


Аннотация результатов, полученных в 2020 году
Создана база данных OORT (Out Of Reference Transcripts), в которой представлены собранные транскрипты, полученные на основе сборке de novo из свыше 1200 транскриптомных библиотек пяти сельскохозяйственных растений: кукурузы, ячменя, картофеля, томата, риса. Транскрипты в нашей БД были отобраны на основе двух основных критериев: (1) транскрипты выравниваются на референсный геном соответствующего вида, но в районы, для которых отсутствует аннотация (неаннотированные транскрипты) и (2) транскрипты не выравниваются на референсный геном (невыравненные транскрипты). Нами было показано, что оба типа этих транскриптов содержат важную информацию о возможных генах, ассоциированных с адаптацией сельскохозяйственных растений к биотическим и абиотическим стрессам, метаболизмом растений, а также большого массива длинных некодирующих РНК. База данных размещена на сервере ЦКП “Биоинформатика”; ее Web-интерфейс доступен по адресу https://oort.cytogen.ru. Интерфейс пользователя включает главную страницу, с которой осуществляется доступ к четырем основным таблицам БД – Проектам, экспериментам, транскриптам, белкам. Доступ к извлечению и модификации данных в БД OORT производился на языке запросов SQL. Мы расширили возможности запросов к БД как к структурированным данным (SQL), так и неструктурированным. Таким образом к БД можно организовывать достаточно сложные запросы, которые могут включать как информацию о последовательности, ее локализации в геноме, аннотации. Запросы могут учитывать результаты сравнения различных характеристик последовательностей, описанных в БД. Для того, чтобы определить таксономическую принадлежность последовательностей невыравненных на геном, мы применили подход, который используется при анализе метагеномных данных. Таксономическая принадлежность аминокислотных последовательностей невыравненных транскриптов определялась на основе сходства и известными последовательностями белков из БД UniRef100. Анализ показал, что наибольшую долю невыравненных последовательностей (~25%) представляют грибы. Это неудивительно, т.к. эти организмами являются часто симбионтами или патогенами для растений. Примерно 20% представляют последовательности животных. К наиболее представленным таксонам относятся, прежде всего, нематоды и насекомые, которые представляют вредителей растений. Примерно 13% последовательностей относятся к таксонам растений. Из наиболее представленных таксонов следует отметить: Fungi (25.6%), среди них Dikarya (23%), включая Ascomycota (18%); Metazoa (22.7%), среди них Insecta (8%), Nematoda (6.8%); Viridiplantae (13.5%); микроорганизмы Sar (5%); бактерии Bacteria (4.7%) включая Terrabacteria (2%); вирусы Viruses (0.2%). Проведено пополнение БД экспериментами транскриптомов растений. Обработано свыше 3300 библиотек, в настоящий момент нами получено 56.5 млн неаннотированных и 10.8 транскриптов. Мы оценили возможность аннотаций функций белков в терминах GO за счет поиска методами быстрой оценки гомологии. Оказалось, что точность аннотации при использовании программ быстрого поиска гомологов (mmseq2, usearch, diamond) незначительно отличается от таковой для программы BLASTP для старых и средних по возрасту генов. Для молодых генов точность определения терминов GO у алгоритма BLAST оказалась несколько выше. Оптимальная точность для старых и средних генов достигается при 20 ближайших гомологов, для молодых генов – для 10. Мы провели сравнение последовательностей, кодирующих белки из БД OORT с белками из аннотации геномов Ensembl Plants версии 40 (использована для классификации последовательностей на не выравненные и неаннотированные текущей версии OORT) и версии 47. Оказалось, что в 47 версии находится лишь на несколько сотен больше белковых последовательностей из нашей базы, чем для версии 40. Таким образом, актуальность нашей работы в связи с пополнением аннотации БД Ensemble Plants остается высокой. Для 5 геномов растений мы провели распознавание ОРС программой transdecoder и altORFEv. Наши результаты показывают, что для особенностей считывания мРНК и характеристик ОРС у 5 растений существует ряд различий. Кроме того, существуют отличия между частотой встречаемости механизмов инициации трансляции у аннотированных транскриптов и транскриптов из БД OORT. Проведен биоинформатический анализ 6 библиотек фрагментов РНК, полученных в результате рибосомного профилирования корней арабидопсиса (3 контроль и 3 воздействие салициловой кислоты). Полученные результаты, однако, нельзя считать успешными. Они оказались непригодными для дальнейшего анализа, поскольку не удовлетворяли двум основным критериям результатов рибосомного профилирования: длине фрагментов и соответствия покрытия основной ОРС. Поэтому анализ этих данных решено было далее не проводить, а сосредоточиться на отработке протокола анализа Ribo-seq для корней картофеля и получения для них качественных результатов. Мы продолжили отработку протокола анализа Ribo-seq для образцов корней картофеля и получения для них качественных библиотек. Отработка экспериментальной методики рибосомного профилирования на этих образцах шла по двум протоколам: протоколу, предложенного для анализа кукурузы (Chotewutmontri et al., 2018) и оригинальному протоколу Ribo-seq, предложенному в работе Ingolia et al. (2012). В ходе выполнения работы проведена пробоподготовка образцов, основные этапы подготовки библиотек Ribo-seq. Оценено качество нуклеотидных фрагментов на каждом этапе обработки, включая их распределение по длинам. Эти результаты формируют основу для дальнейших исследований в этом направлении.

 

Публикации

1. А. Пронозин, М. Генаев, Д. Афонников Using fast homology search tools for protein sequence functional annotation: a comparison Systems Biology and Bioinformatics (SBB-2020). The Twelfth International Young Scientists School. Book of Abstracts., P. 47 (год публикации - 2020).

2. А. Пронозин, М. Генаев, Д.Афонников Using fast homology search tools for protein sequence functional annotation: a comparison Тезисы Международной конференции, посвященной 95-летию со дня рождения акад. Г. И. Марчука, P. 168 (год публикации - 2020).

3. А.Ю. Пронозин, М.К. Брагина, Н.А. Шмаков, Е.А. Салина Пангеномы сельскохозяйственных растений Вавиловский журнал генетики и селекции, - (год публикации - 2021).

4. Д.А. Афонников, О.И. Синицына, Т.С. Голубева, Н.А. Шмаков, А.В. Кочетов Рибосомное профилирование как инструмент исследования трансляции у растений: основные итоги, проблемы и перспективы Вавиловский журнал генетики и селекции, - (год публикации - 2021).

5. Н.А. Шмаков Улучшение качества сборки de novo транскриптомов ячменя на основе гибридного подхода для линий с изменениями окраски колоса и стебля Вавиловский журнал генетики и селекции, - (год публикации - 2021).

6. Т.Н. Лахова, Ф.В. Казанцев, С.А. Лашин, Ю.Г. Матушкин Технология поиска и исследования потенциально осциллирующих ферментативных систем Вавиловский журнал генетики и селекции, - (год публикации - 2021).