КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ
Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.
ОБЩИЕ СВЕДЕНИЯ
Номер проекта 23-14-00136
НазваниеСравнительный анализ больших постгеномных данных
Руководитель Миронов Андрей Александрович, Доктор биологических наук
Организация финансирования, регион Федеральное государственное бюджетное учреждение науки Институт общей генетики им. Н.И. Вавилова Российской академии наук , г Москва
Конкурс №80 - Конкурс 2023 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами»
Область знания, основной код классификатора 04 - Биология и науки о жизни; 04-201 - Структурная, функциональная и эволюционная геномика
Ключевые слова РНК-хроматиновый взаимодействия; Структура хроматина; Сплайсинг; Развитие; Эволюция
Код ГРНТИ34.03.23
ИНФОРМАЦИЯ ИЗ ЗАЯВКИ
Аннотация
Современные технологии массового секвенирования позволяет на только читать геномы, но и получать важную информацию об экспрессии генов, регуляции и взаимодействии биологических макромолекул. Однако данные несут достаточно высокий уровень шума, причем это не экспериментальный шум, но он часто является биологическим шумом, определяемым большим количеством неспецифических взаимодействий. Сравнительный анализ различных данных позволит решить целый ряд задач. В частичности, сравнение данных из разных экспериментов позволяет понизить уровень шума. Сравнение разнородных данных также может подавить уровень шума. Сравнение данных из разных организмов позволит найти новые закономерности в процессе эволюции.
Настоящий проект направлен на решение ряда биологических задач с помощью сравнения больших пост-геномных данных. Предполагается работа по следующим направлениям. Во-первых, предполагается продолжить ранее начатый нами анализ РНК-хроматинового интерактома. Здесь предполагается развить методы фильтрации данных, и, в частности, научится выделять наиболее достоверные контакты, для чего будет построена фоновая модель и разработан алгоритм поиска пиков в данных по РНК-хроматиновому интерактому. С использованием этого метода будет проведено сравнение РНК-хроматинового интерактома с РНК-белковым, белок-хроматиновым и хроматин-хроматиновым интерактомами. Также будет проведено сравнение данных, полученных разными протоколами для разных типов клеток и для разных организмов. Далее предполагается более детально рассмотреть хроматин-хроматиновый интерактом и проверить гипотезу о пространственной сближенности взаимодействующих энхансеров и промоторов. Будет проведено исследование хроматин-хроматинового интерактома методами искусственного интеллекта, в частности, будет построена модель для поиска мотивов в контактирующих областях.
Другая часть работы связана с эволюцией системы созревания РНК. В последнее время появляется все больше данных о важной роли редактирования мРНК в клетке. Ранее нами было показано, что у головоногих моллюсков, в мРНК которых редактируется свыше 1% всех аденинов, сайты редактирования РНК находятся под положительным отбором. Мы предполагаем сопоставить данные по редактированию со структурами белков. Мы также исследуем эволюционную историю видоспецифичных (молодых) сайтов сплайсинга и экзонов - будет проверена гипотеза о том, что после возникновения сайт эволюционирует под сильным положительным отбором.
На основе предварительного анализа и общетеоретических соображений мы сделали предположение о том, что при сопоставлении транскриптомов куколок относительно близких видов насекомых с полным превращением должен быть момент, когда транскриптомы больше всего похожи друг на друга - аналог филотипической стадии в развитии эмбриона. Мы проверим это предсказание путем сопоставления развитийных серий родственных видов Drosophila melanogaster и Drosophila virilis. Если оно подтвердится, это будет первый пример двух филотипических стадий в развитии одного животного (у растений подобные примеры известны).
ОТЧЁТНЫЕ МАТЕРИАЛЫ
Публикации
1.
Мыларщиков Д.Е., Накольская А.И., Богомаз О.Д., Жарикова А.А., Миронов А.А.
BaRDIC: robust peak calling for RNA-DNA interaction data
NAR Genom Bioinform., NAR Genom Bioinform. 2024 May 20;6(2):lqae054 (год публикации - 2024)
10.1093/nargab/lqae054
Аннотация результатов, полученных в 2024 году
Продолжена работа по анализу РНК-хроматинового интерактома. По экспериментальным данным были найдены триады взаимодействия РНК-ДНК-белок. Показано, что такой подход значительно понижает уровень шума в данных. Результаты работы опубликованы: https://www.biorxiv.org/content/10.1101/2024.03.13.584417v1. В настоящий момент работа проходит третий круг рецензирования в журнале Nucleic Acids Research: Genomics and Bioinformatics (Q1, 2023 IF = 4.6).
Было проведено сравнение данных РНК-хроматинового интерактома и ДНК-ДНК интерактома. Найдены РНК, существенно ассоциированные со структурой хроматина, в том числе ранее не охарактеризованные. Результаты работы представлены в формате препринта в системе bioRxiv: https://doi.org/10.1101/2024.11.30.626180. Статья подана в журнал MDPI International Journal of Molecular Sciences (Q1, Impact Factor: 4.9) и проходит первую стадию рецензирования.
Для дополнения данных по РНК-белковым взаимодействиям был проведён обзор существующих методов предсказания РНК-белковых взаимодействий. Было выяснено, что использование большинства существующих моделей в нашей задаче невозможно по ряду существенных причин. Был разработан подход к генерации обучающих выборок.
Разработан универсальный гибкий и универсальный программный конвейер nf-rnachrom на языке Nextflow для обработки данных РНК-ДНК интерактома. Запуск конвейера упрощен благодаря наличию веб-интерфейса настройки. Пайплайн генерирует выходные файлы и статистику каждого шага. На основании результатов формируется Html- или PDF отчет, где представлены графики по всем этапам обработки. Первым шагом является обработка необработанных прочтений Illumina, включая удаление последовательности линкера и разделение частей РНК и ДНК, удаление ПЦР дубликатов, выравнивание фрагментов на геном и фильтрация полученных выравниваний. Затем аннотируются РНК, связанные с хроматином, кластеры неаннотированных РНК-частей (ucaRNA). Рассчитывается неспецифическая фоновая модель. Каждый контакт нормализуется по значению фонового сигнала. В конвейер интегрирована программа поиска пиков в данных РНК-ДНК (BaRDIC). Конвейер доступен по ссылкам https://github.com/ilnitsky/nf-rnachrom, https://nf-rnachrom.readthedocs.io/en/latest/
База данных RNA-chrom была дополнена новыми наборами данных.
Исследованы структурные мотивы хроматина у человека, мыши, рыбы Danio rerio, дрозофилы и лругих насекомых, нематод, диктиостелиума, растений, а также их развитие в временных сериях контактных карт — эмбрионального развития Danio rerio и клеточного цикла человека. Показана важность взаимного расположения транскрибируемх генов при формировании петель в хроматине диктиостелиума. Был применен метод глубокого обучения для предсказания структуры хроматина по последовательности генома. Опубликован препринт: https://www.biorxiv.org/content/10.1101/2024.11.14.623548v2
Статья подана в Nature Communications.
Была проведена кластеризация генов по уровню экспрессии на разных стадиях развития насекомых. Охарактеризованы кластеры генов и показана их взаимосвязь с регуляцией развития. Опубликован препринт: https://www.biorxiv.org/content/10.1101/2024.06.17.599350v1. Статья подана в Genome Biology and Evolution.
Исследованы гены развития миног на разных стадиях эмбрионального развития.
Опубликована 1 статья: Mylarshchikov DE, Nikolskaya AI, Bogomaz OD, Zharikova AA, Mironov AA. BaRDIC: robust peak calling for RNA-DNA interaction data. NAR Genom Bioinform. 2024 May 20;6(2):lqae054. doi: 10.1093/nargab/lqae054. Erratum in: NAR Genom Bioinform. 2024 Jul 02;6(3):lqae080. doi: 10.1093/nargab/lqae080. PMID: 38774512; PMCID: PMC11106031.
Опубликованы препринты и представлены статьи:
1. “Comprehensive analysis of RNA-chromatin, RNA- and DNA-protein interactions”, https://www.biorxiv.org/content/10.1101/2024.03.13.584417v1. Статья представлена в журнал NAR GB и проходит третий круг рецензирования
2. “Joint analysis of RNA-DNA and DNA-DNA interactomes reveals their strong association”, https://doi.org/10.1101/2024.11.30.626180. Статья подана в журнал MDPI International Journal of Molecular Sciences.
3. “Deciphering the 3D genome organization across species from Hi-C data”, https://www.biorxiv.org/content/10.1101/2024.11.14.623548v2. Статья подана в Nature Communications.
4. “Temporal dynamics of gene expression during metamorphosis in two distant Drosophila species”, https://www.biorxiv.org/content/10.1101/2024.06.17.599350v1. Статья подана в Genome Biology and Evolution.
Публикации
1.
Мыларщиков Д.Е., Накольская А.И., Богомаз О.Д., Жарикова А.А., Миронов А.А.
BaRDIC: robust peak calling for RNA-DNA interaction data
NAR Genom Bioinform., NAR Genom Bioinform. 2024 May 20;6(2):lqae054 (год публикации - 2024)
10.1093/nargab/lqae054