КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ
Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.
ОБЩИЕ СВЕДЕНИЯ
Номер проекта 24-24-00031
НазваниеИзучение дисперсных повторов в геномах сельскохозяйственных растений
Руководитель Коротков Евгений Вадимович, Доктор биологических наук
Организация финансирования, регион Федеральное государственное учреждение "Федеральный исследовательский центр "Фундаментальные основы биотехнологии" Российской академии наук" , г Москва
Конкурс №89 - Конкурс 2023 года «Проведение фундаментальных научных исследований и поисковых научных исследований малыми отдельными научными группами»
Область знания, основной код классификатора 04 - Биология и науки о жизни; 04-201 - Структурная, функциональная и эволюционная геномика
Ключевые слова последовательность ДНК, геномы сельскохозяйственных растений, растительные геномы, дисперсные повторы, повторяющиеся последовательности, сильнодивергированные повторы, SINE, LINE, транспозоны, множественное выравнивание
Код ГРНТИ34.03.23
ИНФОРМАЦИЯ ИЗ ЗАЯВКИ
Аннотация
Поиск дисперсных повторов в геноме – важная задача биоинформатики. Поиск дисперсных повторов позволяет обнаруживать следы расселения транспонируемых элементов (transposable element, TE) и проследить эволюцию полных геномов. В настоящее время считается, что больше половины генома человека и других видов является следами расселения TE. Если разработать новые методы поиска TE de novo, то можно более полно аннотировать геномы и понять их эволюционное происхождение в деталях. Решение этой задачи важно для создания более продуктивных растений для сельского хозяйства. Задача поиска дисперсных повторов решается в настоящее время компьютерными методами, основанными на парном сравнении последовательностей или путем анализа различных k-mer. В настоящее время создано более 20 математических методов и компьютерных программ, которые позволяют в последовательностях полных геномов обнаружить TE de novo. Кроме того, применяются методы основанные на сигнатурах и библиотечные методы и тут самая известная программа есть RepeatMasker. Однако, у всех разработанных сегодня программ есть важное ограничение. Эти программы могут найти дисперсные повторы в том случае, если средне число замен на нуклеотид между двумя повторами дисперсного семейства (x) будет меньше или равно 1.0. Если же x>1.0, то эти семейства дисперсных повторов или такие сильно дивергировавшие копии известных семейств невозможно найти настоящими методами. В силу этого значительная часть полных геномов остается не аннотированной и TE остаются не найденными. Авторы данного проекта уже разработали математический метод, основанный на итерационной процедуре, позволяющей найти дисперсные повторы de novo для x≤1.5 (IP метод, рукопись прикреплена к заявке). Это позволило найти семейства дисперсных повторов в бактериальных геномах, которые ранее не были обнаружены и которые связаны с триплетной периодичностью различных бактериальных генов. В данном проекте мы хотим решить две задачи. Вначале проанализировать заново примерно 5 значимых растительных геномов (рис, пшеница, перец, кукуруза и ячмень) и найти в них IP методом не найденные ранее TE. Во вторых, мы хотим при помощи генетического алгоритма и множественного выравнивания модернизировать IP метод для того, чтобы находить дисперсные повторы вплоть до x≤2.0. Это возможно сделать, так как мы откажемся от поиска k-mer и парного самоподобия последовательностей и вместо парного самоподобия перейдем на множественное самоподобие. Модернизированным IP методом мы проанализируем 5 важных для сельского хозяйства геномов и все найденные семейства дисперсных повторов выложим в базу данных. Также будет создан сервер, где любой пользователь сможет проанализировать какой-либо геном или отдельную хромосому и найти все дисперсные семейства повторов de novo.
ОТЧЁТНЫЕ МАТЕРИАЛЫ
Аннотация результатов, полученных в 2024 году
В ходе выполнения проекта в 2024 году мы модернизировали IP метод для поиска дисперсных повторов. IP метод заключается в том, что создаются случайные позиционно-весовые матрицы (ПВМ), которые потом адаптируются к существующим тандемным повторам в изучаемой последовательности (S) при помощи итерационной процедуры. Это значительно ускорило вычисления (более чем в 10 раз) и позволило находить дисперсные повторы (ДП) для x меньше или равного 1.7. Здесь x есть среднее число замен на один нуклеотид между двумя ДП. Мы протестировали это на искусственных последовательностях длиной в 4 миллиона оснований ДНК. Также, для тестирования модернизированного IP метода мы изучили наличие ДП в геномах 42 бактерий из 42 бактериальных видов. Результаты показали, что от 17 до 70% бактериального генома принадлежит ДП, которые как мотив наложены на гены. Эти ДП слабо подобны друг другу, но встречаются небольшие участки или отдельные позиции где наблюдается сильное подобие. Можно предположить, что найденные в бактериальных геномах дисперсные повторы со слабым подобием могут быть участками связывания различных нуклеоид-ассоциированных белков и способствовать свертке бактериальной ДНК в nucleoid. Эти результаты публикуются в журнале IPSJ Transactions on Bioinformatics в 2024 году.
Мы создали сервер для поиска ДП. В настоящее время поиск ДП IP методом возможно сайте http://victoria.biengi.ac.ru/shddr/auth/login после свободной регистрации. В настоящее время существует только ограничение для длины анализируемой последовательности. Она составляет 20 миллионов оснований. Это ограничение будет сниматься по мере увеличения мощности кластера на котором проводятся вычисления. В результате поиска ДП примерно через 10 часов пользователь получает найденные ДП, их координаты и статистическая значимость для каждого из них. Для каждого семейства создается также ПВМ и она высылается пользователю.
Мы провели поиск дисперсных повторов в геномах риса, перца, кукурузы, моркови и арабидопсиса IP методом. Мы обнаружили 79, 26, 54, 35 и 35 семейств повторов в геномах риса, перца, кукурузы, моркови и арабидопсиса. Эти семейства повторов очень разные по объёму и первое семейство обычно самое большое и оно содержит от 25 до 35 % от всех найденных дисперсных повторов (ДП). Найденные ДП имеют длину от 300 до 600 оснований ДНК. В геномах перца, кукурузы, моркови и арабидопсиса эти повторы занимают более 50% от размера генома. Однако в геномах риса они занимают более 66% от генома. Число повторов составляет 996, 1259, 1209, 167 и 59 тысяч для геномов геномах риса, перца, кукурузы, моркови и арабидопсиса. Из найденных нами ДП в 5 растительных геномах около 49% перекрываются с ранее аннотированными дисперсными повторами (АДП) и мы находим около 80% АДП. В то же время около 51% ДП были найдены только IP методом.
Мы создали базу данных дисперсных повторов в геноме риса, которая находится по адресу: http://victoria.biengi.ac.ru/cgi-bin/ipdisprepext/index.cgi. На эту базу данных было получено в 2024 году авторское свидетельство за номером 2024624342.
Публикации
1. Коротков ЕВ, Короткова МА, Костенко ДО База дисперсных повторов в геномах растений Свидетельство о государственной регистрации базы данных № 2024624342, Свидетельство о государственной регистрации базы данных №2024624342 (год публикации - 2024)
2.
Руденко ВМ, Коротков ЕВ
Structural organization of the eukaryotic genome by example of C. merolae
Труды конференции БИОИНФОРМАТИКА РЕГУЛЯЦИИ
И СТРУКТУРЫ ГЕНОМОВ /
СИСТЕМНАЯ БИОЛОГИЯ
14-я Международная мультиконференция
5–10 августа 2024, Новосибирск,, БИОИНФОРМАТИКА РЕГУЛЯЦИИ
И СТРУКТУРЫ ГЕНОМОВ /
СИСТЕМНАЯ БИОЛОГИЯ
14-я Международная мультиконференция
5–10 августа 2024, Новосибирск, Россия, стр.31 (год публикации - 2024)
doi 10.18699/bgrs2024-01-08
3. Коротков ЕВ, Короткова МА Detection of Dispersed Repeats in the Genomes of Bacteria from Different Phyla IPSJ_Transactions_on_Bioinformatics (год публикации - 2024)
4.
Коротков ЕВ
Bacterial genomes are internally formatted
Труды конференции БИОИНФОРМАТИКА РЕГУЛЯЦИИ
И СТРУКТУРЫ ГЕНОМОВ /
СИСТЕМНАЯ БИОЛОГИЯ
14-я Международная мультиконференция
5–10 августа 2024, Новосибирск,, БИОИНФОРМАТИКА РЕГУЛЯЦИИ
И СТРУКТУРЫ ГЕНОМОВ /
СИСТЕМНАЯ БИОЛОГИЯ
14-я Международная мультиконференция
5–10 августа 2024, Новосибирск, Россия, стр.31 (год публикации - 2024)
doi 10.18699/bgrs2024-1.1-20