КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ
Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.
ОБЩИЕ СВЕДЕНИЯ
Номер проекта 23-14-00136
НазваниеСравнительный анализ больших постгеномных данных
Руководитель Миронов Андрей Александрович, Доктор биологических наук
Организация финансирования, регион Федеральное государственное бюджетное учреждение науки Институт общей генетики им. Н.И. Вавилова Российской академии наук , г Москва
Конкурс №80 - Конкурс 2023 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами»
Область знания, основной код классификатора 04 - Биология и науки о жизни; 04-201 - Структурная, функциональная и эволюционная геномика
Ключевые слова РНК-хроматиновый взаимодействия; Структура хроматина; Сплайсинг; Развитие; Эволюция
Код ГРНТИ34.03.23
ИНФОРМАЦИЯ ИЗ ЗАЯВКИ
Аннотация
Современные технологии массового секвенирования позволяет на только читать геномы, но и получать важную информацию об экспрессии генов, регуляции и взаимодействии биологических макромолекул. Однако данные несут достаточно высокий уровень шума, причем это не экспериментальный шум, но он часто является биологическим шумом, определяемым большим количеством неспецифических взаимодействий. Сравнительный анализ различных данных позволит решить целый ряд задач. В частичности, сравнение данных из разных экспериментов позволяет понизить уровень шума. Сравнение разнородных данных также может подавить уровень шума. Сравнение данных из разных организмов позволит найти новые закономерности в процессе эволюции.
Настоящий проект направлен на решение ряда биологических задач с помощью сравнения больших пост-геномных данных. Предполагается работа по следующим направлениям. Во-первых, предполагается продолжить ранее начатый нами анализ РНК-хроматинового интерактома. Здесь предполагается развить методы фильтрации данных, и, в частности, научится выделять наиболее достоверные контакты, для чего будет построена фоновая модель и разработан алгоритм поиска пиков в данных по РНК-хроматиновому интерактому. С использованием этого метода будет проведено сравнение РНК-хроматинового интерактома с РНК-белковым, белок-хроматиновым и хроматин-хроматиновым интерактомами. Также будет проведено сравнение данных, полученных разными протоколами для разных типов клеток и для разных организмов. Далее предполагается более детально рассмотреть хроматин-хроматиновый интерактом и проверить гипотезу о пространственной сближенности взаимодействующих энхансеров и промоторов. Будет проведено исследование хроматин-хроматинового интерактома методами искусственного интеллекта, в частности, будет построена модель для поиска мотивов в контактирующих областях.
Другая часть работы связана с эволюцией системы созревания РНК. В последнее время появляется все больше данных о важной роли редактирования мРНК в клетке. Ранее нами было показано, что у головоногих моллюсков, в мРНК которых редактируется свыше 1% всех аденинов, сайты редактирования РНК находятся под положительным отбором. Мы предполагаем сопоставить данные по редактированию со структурами белков. Мы также исследуем эволюционную историю видоспецифичных (молодых) сайтов сплайсинга и экзонов - будет проверена гипотеза о том, что после возникновения сайт эволюционирует под сильным положительным отбором.
На основе предварительного анализа и общетеоретических соображений мы сделали предположение о том, что при сопоставлении транскриптомов куколок относительно близких видов насекомых с полным превращением должен быть момент, когда транскриптомы больше всего похожи друг на друга - аналог филотипической стадии в развитии эмбриона. Мы проверим это предсказание путем сопоставления развитийных серий родственных видов Drosophila melanogaster и Drosophila virilis. Если оно подтвердится, это будет первый пример двух филотипических стадий в развитии одного животного (у растений подобные примеры известны).
ОТЧЁТНЫЕ МАТЕРИАЛЫ
Аннотация результатов, полученных в 2024 году
Продолжена работа по анализу РНК-хроматинового интерактома. По экспериментальным данным были найдены триады взаимодействия РНК-ДНК-белок. Показано, что такой подход значительно понижает уровень шума в данных. Результаты работы опубликованы: https://www.biorxiv.org/content/10.1101/2024.03.13.584417v1. В настоящий момент работа проходит третий круг рецензирования в журнале Nucleic Acids Research: Genomics and Bioinformatics (Q1, 2023 IF = 4.6).
Было проведено сравнение данных РНК-хроматинового интерактома и ДНК-ДНК интерактома. Найдены РНК, существенно ассоциированные со структурой хроматина, в том числе ранее не охарактеризованные. Результаты работы представлены в формате препринта в системе bioRxiv: https://doi.org/10.1101/2024.11.30.626180. Статья подана в журнал MDPI International Journal of Molecular Sciences (Q1, Impact Factor: 4.9) и проходит первую стадию рецензирования.
Для дополнения данных по РНК-белковым взаимодействиям был проведён обзор существующих методов предсказания РНК-белковых взаимодействий. Было выяснено, что использование большинства существующих моделей в нашей задаче невозможно по ряду существенных причин. Был разработан подход к генерации обучающих выборок.
Разработан универсальный гибкий и универсальный программный конвейер nf-rnachrom на языке Nextflow для обработки данных РНК-ДНК интерактома. Запуск конвейера упрощен благодаря наличию веб-интерфейса настройки. Пайплайн генерирует выходные файлы и статистику каждого шага. На основании результатов формируется Html- или PDF отчет, где представлены графики по всем этапам обработки. Первым шагом является обработка необработанных прочтений Illumina, включая удаление последовательности линкера и разделение частей РНК и ДНК, удаление ПЦР дубликатов, выравнивание фрагментов на геном и фильтрация полученных выравниваний. Затем аннотируются РНК, связанные с хроматином, кластеры неаннотированных РНК-частей (ucaRNA). Рассчитывается неспецифическая фоновая модель. Каждый контакт нормализуется по значению фонового сигнала. В конвейер интегрирована программа поиска пиков в данных РНК-ДНК (BaRDIC). Конвейер доступен по ссылкам https://github.com/ilnitsky/nf-rnachrom, https://nf-rnachrom.readthedocs.io/en/latest/
База данных RNA-chrom была дополнена новыми наборами данных.
Исследованы структурные мотивы хроматина у человека, мыши, рыбы Danio rerio, дрозофилы и лругих насекомых, нематод, диктиостелиума, растений, а также их развитие в временных сериях контактных карт — эмбрионального развития Danio rerio и клеточного цикла человека. Показана важность взаимного расположения транскрибируемх генов при формировании петель в хроматине диктиостелиума. Был применен метод глубокого обучения для предсказания структуры хроматина по последовательности генома. Опубликован препринт: https://www.biorxiv.org/content/10.1101/2024.11.14.623548v2
Статья подана в Nature Communications.
Была проведена кластеризация генов по уровню экспрессии на разных стадиях развития насекомых. Охарактеризованы кластеры генов и показана их взаимосвязь с регуляцией развития. Опубликован препринт: https://www.biorxiv.org/content/10.1101/2024.06.17.599350v1. Статья подана в Genome Biology and Evolution.
Исследованы гены развития миног на разных стадиях эмбрионального развития.
Опубликована 1 статья: Mylarshchikov DE, Nikolskaya AI, Bogomaz OD, Zharikova AA, Mironov AA. BaRDIC: robust peak calling for RNA-DNA interaction data. NAR Genom Bioinform. 2024 May 20;6(2):lqae054. doi: 10.1093/nargab/lqae054. Erratum in: NAR Genom Bioinform. 2024 Jul 02;6(3):lqae080. doi: 10.1093/nargab/lqae080. PMID: 38774512; PMCID: PMC11106031.
Опубликованы препринты и представлены статьи:
1. “Comprehensive analysis of RNA-chromatin, RNA- and DNA-protein interactions”, https://www.biorxiv.org/content/10.1101/2024.03.13.584417v1. Статья представлена в журнал NAR GB и проходит третий круг рецензирования
2. “Joint analysis of RNA-DNA and DNA-DNA interactomes reveals their strong association”, https://doi.org/10.1101/2024.11.30.626180. Статья подана в журнал MDPI International Journal of Molecular Sciences.
3. “Deciphering the 3D genome organization across species from Hi-C data”, https://www.biorxiv.org/content/10.1101/2024.11.14.623548v2. Статья подана в Nature Communications.
4. “Temporal dynamics of gene expression during metamorphosis in two distant Drosophila species”, https://www.biorxiv.org/content/10.1101/2024.06.17.599350v1. Статья подана в Genome Biology and Evolution.
Публикации
1.
Мыларщиков Д.Е., Накольская А.И., Богомаз О.Д., Жарикова А.А., Миронов А.А.
BaRDIC: robust peak calling for RNA-DNA interaction data
NAR Genom Bioinform., NAR Genom Bioinform. 2024 May 20;6(2):lqae054 (год публикации - 2024)
10.1093/nargab/lqae054
Аннотация результатов, полученных в 2025 году
Значительную долю транскриптов составляет некодирующая РНК. Для ряда таких РНК известна их роль в регуляции работы хроматина, в частности в регуляции экспрессии генов. Мутации в некодирующих РНК часто бывает ассоцированы с различными заболеваниями. В работе исследованы данные РНК-хроматинового интерактома.
Проведен систематический сравнительный анализ данных РНК-хроматинового интерактома с целью выяснить полноту данных, уровень шума и точность данных. Сравнение реплик и сравнение разных экспериментов показало, что в ряде экспериментов уровень шума может достигать 90%, а полнота данных не превышает 10%. Для отсеивания шума было предложено несколько подходов. 1) Введено понятие хроматинового потенциала, позволяющее выделять РНК, специфически связывающихся с хроматином. 2) Разработан новый метод Hmardic поиска пиков в данных РНК-хроматинового интерактома Hmardic с помощью скрытых Марковских моделей. Этот метод призван заменить ранее разработанный метод BARDIC и позволяет точнее определять пики.
Мы интегрировали известные и разработанные нами методы анализа интерактома в единый конвейер, позволяющий, с одной стороны, гибко настраиваться, а с другой – находить оптимальные параметры программ. На входе конвейер принимает сырые прочтения, а на выходе генерируется аннотированные наборы контактов (пример отчета см https://github.com/ilnitsky/nf-rnachrom/blob/latest/assets/html_report.rar).
При анализе данных интерактома необходимым этапом является удаление дубликатов. Применение известных инструментов показало их неоправданно высокую требовательность к вычислительным ресурсам. Мы разработали собственный дедупликсатор FASTQ-dupaway. Его тестирование показало, что без потери качества обработки данныхи скорости работы, он существенно менее требователен к ресурсам.
Другим вопросом к этим данным является вопрос об источнике шума, в частности, какие особенности хроматина способствуют липкости хроматина к РНК, а точнее, какие особенности хроматина способствуют повышению сигнала в данных. Для этого построена модель машинного обучения для предсказания фоновых контактов. Оказалось, что наиболее важными являются открытость хроматина, а также плотность сайтов рестрикцц фермента, использованного при фрагментации ДНК. Хотя результат очевиден постфактум, это необходимо учитывать при анализе данных.
К сожалению, данные по интерктомам РНК-белок достаточно ограничены, что ограничевает анализ возможных триад РНК-белок-хроматин . Поэтому возник вопрос об импутации этих данных. Для этого была построена модель машинного обучения для предсказания РНК-белковых взаимодействий, которая превосходит известные модели.
Исследованы структурные мотивы у широкого набора видов а также их развитие в временных сериях контактных карт — эмбрионального развития Danio rerio и клеточного цикла человека. Были подтверждены мотивы связывания CTCF у позвоночных и BEAF-32 у дрозофилы, а также выявили новые мотивы у мыши и дрозофилы, способствующие формированию ТАДов и фонтанов. Для оценки общего сходства хроматиновых структур у различных видов, сеть, обученная на одном виде, применялась без дополнительного обучения для предскания структуры хроматина другого вида. В результате была получена мера сходства, показавшее хорошее согласие с таксономией, от растений до млекопитающих.
Проведен анализ данных HiC для широкого круга видов. Обнаружены общие особенности, а именно среди типов межхромосомных взаимодействий выявлены теломер-теломерные, центромер-центромерные и взаимодействия, обусловленные компартментализациейж компартментализация является наиболее консервативной характеристикой пространственной организации генома: она обнаружена у практически всех представителей Metazoa; хроматиновые фонтаны были обнаружены у обоих исследованных представителей Porifera и у одного представителя Nematoda; петли обнаружены как в основании ТАДов у отдельных представителей из групп Chordata, Arthropoda и Mollusca, так и независимо от ТАДов — у представителей Ascomycota (Schizosaccharomyces pombe) и Evosea (Dictyostelium discoideum).
Исследована программа метаморфоза в куколке и показано, что она частично повторяет программу развития эмбриона. В результате кластеризации профилей экспрессии идентифицированы ~900 генов, специфически экспрессирующихся на стадиях эмбриона и куколки. Схожие кластеры обогащены генами с релевантными функциями, например, регуляция развития, миграция клеток и организация хроматина, клеточный цикл и развитийные процессы на поздних стадиях. Анализ филострат показал, что самые древние гены (от Eukaryota до Protostomia) в среднем имеют пик экспрессии на стадии личинки, у более молодых генов (Arthropoda, Pancrustacea) появляется второй пик на стадии Р4, а у самых молодых генов (от Insecta до Drosophila) пик на стадии личинки исчезает и остается только пик Р4.Таким образом, между стадиями наибольшего сходства транскриптомов метаморфоза (Р3 и Р5) располагается стадия относительного различия Р4, в которой экспрессируются эволюционно молодые гены, что, видимо, определяет индивидуальность развития отрядов насекомых с полным превращением.
Редактирование мРНК зачастую приводит к изменению последовательности белка, что может влиять на его стабильность. Были предсказаны изменения свободной энергии Гиббса (ΔΔG) для оценки структурного влияния изменений белка, вызванных редактированием. Оказалось, что распределение ΔΔG при редактировании аналогично полученному при рандомизированном контроле, что указывает на минимальное влияние редактирования на стабильность белка. Однако выяснилось, что сайты редактирования значимо чаще затрагивают аминокислотные остатки, участвующие в белок-белковых взаимодействиях. Эти результаты могут свидетельствовать о том, что редактирование РНК с преобразованием A в I у головоногих моллюсков селективно ограничено сохранением структурной стабильности белка, но при этом может оказывать модулирующее влияние на системы передачи сигнала в клетке.
Возможность практического использования результатов
Разработанная нами программа удаления дубликатов может быть использована при анализе различных данных секвенирования, в том числе и в медицинских приложениях. Исследование некодирующих РНК и их взаимодействий открыть новые перспективы в персонализированной медицине. Разработанные нами методы, в том числе, основанные на машинном обучении, могут быть применены к анализу различных данных, в том числе и для персонифицированной медицины