КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ
Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.
ОБЩИЕ СВЕДЕНИЯ
Номер проекта 24-24-00031
НазваниеИзучение дисперсных повторов в геномах сельскохозяйственных растений
Руководитель Коротков Евгений Вадимович, Доктор биологических наук
Организация финансирования, регион Федеральное государственное учреждение "Федеральный исследовательский центр "Фундаментальные основы биотехнологии" Российской академии наук" , г Москва
Конкурс №89 - Конкурс 2023 года «Проведение фундаментальных научных исследований и поисковых научных исследований малыми отдельными научными группами»
Область знания, основной код классификатора 04 - Биология и науки о жизни; 04-201 - Структурная, функциональная и эволюционная геномика
Ключевые слова последовательность ДНК, геномы сельскохозяйственных растений, растительные геномы, дисперсные повторы, повторяющиеся последовательности, сильнодивергированные повторы, SINE, LINE, транспозоны, множественное выравнивание
Код ГРНТИ34.03.23
ИНФОРМАЦИЯ ИЗ ЗАЯВКИ
Аннотация
Поиск дисперсных повторов в геноме – важная задача биоинформатики. Поиск дисперсных повторов позволяет обнаруживать следы расселения транспонируемых элементов (transposable element, TE) и проследить эволюцию полных геномов. В настоящее время считается, что больше половины генома человека и других видов является следами расселения TE. Если разработать новые методы поиска TE de novo, то можно более полно аннотировать геномы и понять их эволюционное происхождение в деталях. Решение этой задачи важно для создания более продуктивных растений для сельского хозяйства. Задача поиска дисперсных повторов решается в настоящее время компьютерными методами, основанными на парном сравнении последовательностей или путем анализа различных k-mer. В настоящее время создано более 20 математических методов и компьютерных программ, которые позволяют в последовательностях полных геномов обнаружить TE de novo. Кроме того, применяются методы основанные на сигнатурах и библиотечные методы и тут самая известная программа есть RepeatMasker. Однако, у всех разработанных сегодня программ есть важное ограничение. Эти программы могут найти дисперсные повторы в том случае, если средне число замен на нуклеотид между двумя повторами дисперсного семейства (x) будет меньше или равно 1.0. Если же x>1.0, то эти семейства дисперсных повторов или такие сильно дивергировавшие копии известных семейств невозможно найти настоящими методами. В силу этого значительная часть полных геномов остается не аннотированной и TE остаются не найденными. Авторы данного проекта уже разработали математический метод, основанный на итерационной процедуре, позволяющей найти дисперсные повторы de novo для x≤1.5 (IP метод, рукопись прикреплена к заявке). Это позволило найти семейства дисперсных повторов в бактериальных геномах, которые ранее не были обнаружены и которые связаны с триплетной периодичностью различных бактериальных генов. В данном проекте мы хотим решить две задачи. Вначале проанализировать заново примерно 5 значимых растительных геномов (рис, пшеница, перец, кукуруза и ячмень) и найти в них IP методом не найденные ранее TE. Во вторых, мы хотим при помощи генетического алгоритма и множественного выравнивания модернизировать IP метод для того, чтобы находить дисперсные повторы вплоть до x≤2.0. Это возможно сделать, так как мы откажемся от поиска k-mer и парного самоподобия последовательностей и вместо парного самоподобия перейдем на множественное самоподобие. Модернизированным IP методом мы проанализируем 5 важных для сельского хозяйства геномов и все найденные семейства дисперсных повторов выложим в базу данных. Также будет создан сервер, где любой пользователь сможет проанализировать какой-либо геном или отдельную хромосому и найти все дисперсные семейства повторов de novo.
ОТЧЁТНЫЕ МАТЕРИАЛЫ
Аннотация результатов, полученных в 2024 году
В ходе выполнения проекта в 2024 году мы модернизировали IP метод для поиска дисперсных повторов. IP метод заключается в том, что создаются случайные позиционно-весовые матрицы (ПВМ), которые потом адаптируются к существующим тандемным повторам в изучаемой последовательности (S) при помощи итерационной процедуры. Это значительно ускорило вычисления (более чем в 10 раз) и позволило находить дисперсные повторы (ДП) для x меньше или равного 1.7. Здесь x есть среднее число замен на один нуклеотид между двумя ДП. Мы протестировали это на искусственных последовательностях длиной в 4 миллиона оснований ДНК. Также, для тестирования модернизированного IP метода мы изучили наличие ДП в геномах 42 бактерий из 42 бактериальных видов. Результаты показали, что от 17 до 70% бактериального генома принадлежит ДП, которые как мотив наложены на гены. Эти ДП слабо подобны друг другу, но встречаются небольшие участки или отдельные позиции где наблюдается сильное подобие. Можно предположить, что найденные в бактериальных геномах дисперсные повторы со слабым подобием могут быть участками связывания различных нуклеоид-ассоциированных белков и способствовать свертке бактериальной ДНК в nucleoid. Эти результаты публикуются в журнале IPSJ Transactions on Bioinformatics в 2024 году.
Мы создали сервер для поиска ДП. В настоящее время поиск ДП IP методом возможно сайте http://victoria.biengi.ac.ru/shddr/auth/login после свободной регистрации. В настоящее время существует только ограничение для длины анализируемой последовательности. Она составляет 20 миллионов оснований. Это ограничение будет сниматься по мере увеличения мощности кластера на котором проводятся вычисления. В результате поиска ДП примерно через 10 часов пользователь получает найденные ДП, их координаты и статистическая значимость для каждого из них. Для каждого семейства создается также ПВМ и она высылается пользователю.
Мы провели поиск дисперсных повторов в геномах риса, перца, кукурузы, моркови и арабидопсиса IP методом. Мы обнаружили 79, 26, 54, 35 и 35 семейств повторов в геномах риса, перца, кукурузы, моркови и арабидопсиса. Эти семейства повторов очень разные по объёму и первое семейство обычно самое большое и оно содержит от 25 до 35 % от всех найденных дисперсных повторов (ДП). Найденные ДП имеют длину от 300 до 600 оснований ДНК. В геномах перца, кукурузы, моркови и арабидопсиса эти повторы занимают более 50% от размера генома. Однако в геномах риса они занимают более 66% от генома. Число повторов составляет 996, 1259, 1209, 167 и 59 тысяч для геномов геномах риса, перца, кукурузы, моркови и арабидопсиса. Из найденных нами ДП в 5 растительных геномах около 49% перекрываются с ранее аннотированными дисперсными повторами (АДП) и мы находим около 80% АДП. В то же время около 51% ДП были найдены только IP методом.
Мы создали базу данных дисперсных повторов в геноме риса, которая находится по адресу: http://victoria.biengi.ac.ru/cgi-bin/ipdisprepext/index.cgi. На эту базу данных было получено в 2024 году авторское свидетельство за номером 2024624342.
Публикации
1. Коротков ЕВ, Короткова МА, Костенко ДО База дисперсных повторов в геномах растений Свидетельство о государственной регистрации базы данных № 2024624342, Свидетельство о государственной регистрации базы данных №2024624342 (год публикации - 2024)
2.
Руденко ВМ, Коротков ЕВ
Structural organization of the eukaryotic genome by example of C. merolae
Труды конференции БИОИНФОРМАТИКА РЕГУЛЯЦИИ
И СТРУКТУРЫ ГЕНОМОВ /
СИСТЕМНАЯ БИОЛОГИЯ
14-я Международная мультиконференция
5–10 августа 2024, Новосибирск,, БИОИНФОРМАТИКА РЕГУЛЯЦИИ
И СТРУКТУРЫ ГЕНОМОВ /
СИСТЕМНАЯ БИОЛОГИЯ
14-я Международная мультиконференция
5–10 августа 2024, Новосибирск, Россия, стр.31 (год публикации - 2024)
doi 10.18699/bgrs2024-01-08
3. Коротков ЕВ, Короткова МА Detection of Dispersed Repeats in the Genomes of Bacteria from Different Phyla IPSJ_Transactions_on_Bioinformatics (год публикации - 2024)
4.
Коротков ЕВ
Bacterial genomes are internally formatted
Труды конференции БИОИНФОРМАТИКА РЕГУЛЯЦИИ
И СТРУКТУРЫ ГЕНОМОВ /
СИСТЕМНАЯ БИОЛОГИЯ
14-я Международная мультиконференция
5–10 августа 2024, Новосибирск,, БИОИНФОРМАТИКА РЕГУЛЯЦИИ
И СТРУКТУРЫ ГЕНОМОВ /
СИСТЕМНАЯ БИОЛОГИЯ
14-я Международная мультиконференция
5–10 августа 2024, Новосибирск, Россия, стр.31 (год публикации - 2024)
doi 10.18699/bgrs2024-1.1-20
Аннотация результатов, полученных в 2025 году
В ходе выполнения проекта мы искали дисперсные повторы (ДП) в последовательностях четырех растительных геномов mIP методом. Это геномы перца, кукурузы, моркови и арабидопсиса. Найденные ДП занимают от 36% до почти 50% изученных растительных геномов, причем наибольшее число повторов наблюдается в геноме Z. mays. Средняя длина повторов варьирует от 465 до 530 bp. Для A. thaliana, C. annuum, и Z. mays ДП имеют пик распределения числа повторов по длинам на длине более 500 bp. В то время как D. carota имеет 2 максимума, что отвечает наличию фракций ДП длин 200-300 bp and 500-600 bp. Мы изучили пересечение найденных нами семейств повторов при помощи IP метода с известными семействами. Оказалось, что перекрытие с известными повторами составляет от 50 до 75% в зависимости от растительного генома. Были построены консенсусы семейств ДП с помощи Weblogo software. Подавляющее большинство консенсусов для всех организмов имеют длину больше 450 bp. Консенсусы короче 450 bp есть только у D. Carota и Z. Mays. В то же время присутствует большое число повторов длиной 200-300 bp. Это может говорить о том, что повторы капусты были в большей степени подвергнуты фрагментации. Наиболее протяженные консенсусы среди всех рассмотренных организмов наблюдаются геноме C. annuum.
Найденные семейства повторов мы разделили на подсемейства. Оказалось, что внутри каждого найденного IP методом семейства повторов присутствует от 10 до 212 подсемейств повторов с уровнем подобия между повторами в подсемействе от 50 до 96%. Объём подсемейств колебался от нескольких десятков до нескольких десятков тысяч повторов. В основном такие подсемейства оказались ранее известными семействами повторов со значительным подобием
Затем мы изучили зеркальную симметрию ДП найденных IP методом в растительных геномах. Оказалось, что от 30 до 56% найденных повторов обладают зеркальной симметрией. Причем обнаруженная зеркальная симметрия приходится на середину позиционно весовой матрицы (плюс минус примерно 26 нуклеотидов) характерной для каждого семейства. Полученный результат показывает, что часть найденных ДП может быть связана с позиционированием нуклеосом.
Мы также изучили присутствие периодичности о всех семействах ДП 4 растений. В незначительном числе случаев (5 семейств из 150) мы можем видеть периодичность с длиной периода около 200 bp. Однако такая периодичность не носит массовый характер. В подавляющем числе семейств, в которых периодичность была обнаружена (59 из 79), длина периода равна 3 bp. Данная периодичность является хорошо известным свойством кодирующих районов ДНК, поэтому ее показывает, что некоторые ДП входят в состав CDS либо были ими когда-то.
Все найденные ДП в 4-х растительных геномах были собраны в базу данных Геномные последовательности, а также данные по числу аннотированных генов были взяты с сайта: https://plants.ensembl.org. Для 4 растительных геномов удалось получить 150 семейств, в которые вошли 5392216 ДП. Мы постарались сделать максимально доступными полученные нами результаты и создали базу данных PlantDRs 1.0. База данных содержит всю необходимую информацию по ДП выбранных растительных геномов и средства их поиска по различным критериям. В результате изучения 4 растительных геномов были получены данные по позиционно-весовым матрицам семейств повторов и расположению ДП в хромосомах. Эта база данных доступна по ссылке: http://victoria.biengi.ac.ru/cgi-bin/ipdisprep/index.cgi.
Публикации
1. Руденко В.М., Коротков Е.В. Dispersed repeats in the C. merolae genome Università Politecnica delle Marche, via Brecce Bianche (60131), Ancona, Italy, thesises of Conference? 2025, ENvironmental cHANges, Conservation biology, and Evolution – ENHANCE 2025 virtual symposium 25th and 26th June 2025 (год публикации - 2025)
2.
Валентина Руденко, Евгений Коротков
Search for Dispersed Repeats in Oryza sativa Genome Using Iterative Procedure Method
Rice science, Rice Science, 2025, 32(4): 472−474 (год публикации - 2025)
10.1016/j.rsci.2025.04.008
3.
Валентина Руденко, Евгений Коротков, Дмитрий Костенко
PlantDRs: A Database of Dispersed Repeats in Plant Genomes Identified by the Iterative Procedure Method
Data, Data, 10(7), 111 (год публикации - 2025)
10.3390/data10070111
4.
Руденко В.М., Коротков Е.В.
Множественные дивергированные дисперсные повторы в геноме риса
енетика, Геномика,Биоинформатика и Биотехнология растений. 8-я Международная научная конференция 2–5 июля 2025, ИЦиГ СО РАН, Новосибирск, Россия, тезисы докладов, Генетика, Геномика,Биоинформатика и Биотехнология растений. 8-я Международная научная конференция 2–5 июля 2025, ИЦиГ СО РАН, Новосибирск, Россия, тезисы докладов, стр. 175 (год публикации - 2025)
10.18699/PlantGen-2025-176
5. Коротков Е.В. Bacterial Genomes are Internally Formatted FUTURE OF PREVENTIVE MEDICINE AND PUBLIC HEALTH 5 th International Conference on Peers Alley Media 1126 59 Ave East, V5X 1Y9, Vancouver BC, Canada WhatsApp No: +1 (506) 909 0537 VIRTUAL EVENT, Peers Alley Media 1126 59 Ave East, V5X 1Y9, Vancouver BC, Canada WhatsApp No: +1 (506) 909 0537, pages 39-40 (год публикации - 2025)