КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 17-74-10188

НазваниеПоиск хрупких регуляторных районов - мишеней соматического мутагенеза в стволовых клетках

РуководительКулаковский Иван Владимирович, Доктор биологических наук

Организация финансирования, регион Федеральное государственное бюджетное учреждение науки Институт общей генетики им. Н.И. Вавилова Российской академии наук, г Москва

Период выполнения при поддержке РНФ 07.2017 - 06.2019 

Конкурс№23 - Конкурс 2017 года по мероприятию «Проведение инициативных исследований молодыми учеными» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными.

Область знания, основной код классификатора 04 - Биология и науки о жизни, 04-207 - Системная биология; биоинформатика

Ключевые словасоматические мутации, паттерны мутагенеза, регуляторные районы генома, факторы транскрипции, сайты связывания, стволовые клетки

Код ГРНТИ34.03.23


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Поиск каузальных генетических вариантов, осложняющих или существенно определяющих течение различных заболеваний с генетической компонентой, является устоявшимся трендом в медико-биологических исследованиях. Традиционный подход состоит в анализе ассоциации между фенотипом и генотипом (конкретными геномными вариантами). Лишь небольшая доля вариантов успешно проходит этап последующей функциональной аннотации, позволяющей выявить механизм, который связывает генотип с развитием заболевания. В то же время стандартные ассоциативные исследования невозможны для анализа соматических мутаций клеточных культур, ввиду того, что при развитии клона отстутствует скрещивание. В этом случае приходится прибегать к другим методам: прямое секвенирование образцов клеточных культур и их фенотипирование на уровне транскриптома, протеома или других показателей. Подобный анализ позволяет оценить соответствие клеточной культуры ее ожидаемому генотипу и фенотипу. Однако, приоретизация и соматических мутаций и генетических вариантов может быть достигнута схожими методами функциональной геномики. Варианты в кодирующих областях, которые могут прямым образом влиять на структур и функцию кодируемых белков, долгое время находились в фокусе исследований. Отчасти, игнорирование вариантов в некодирующих областях объяснялось неполнотой знаний о структуре и функции генома. Сегодня научным сообществом собран уже заметный объем экспериментальных данных о функциональных элементах генома за пределами кодирующих областей, и это открывает дорогу для полноценного функционального анализа некодирующих геномных вариантов, в первую очередь, в регуляторных областях, управляющих транскрипцией генов (промоторах и энхансерах). Именно в промоторах и энхансерах находится более 60% казуальных вариантов, определяющих предрасположенность к аутоимунным заболеваниям [Farh и др., 2015]; а в недавнем исследовании ассоциации геномных вариантов с риском развития эпителиального рака яичников (epithelial ovarian cancer [Lawrenson и др., 2015]), лишь 2 полиморфных позиции из почти 300 значимых были локализованы в кодирующих областях, при этом 25 из 300 были найдены непосредственно в участках ДНК, узнаваемых белками-факторов транскрипции. Традиционным объектом в исследовании геномных вариантов были однонуклеотидных полиморфизмы с точки зрения популяционной распространенности конкретных аллелей. С удешевлением секвенирования появляются принципиально новые данные: информация о соматическом мутагенезе, как в патологических процессах (в первую очередь – в геномах раковых клеток), так и в норме. Анализ соматических мутаций в раковых клетках сталкивается с интерференцией принципиально разных процессов: активности конкретных мутационных механизмов, специфичных для типа клеток и определяющих основную «мутационную подпись», и клональной эволюции и сопутствующего давления отбора, маскирующего или усиливающего след подписи в конкретных участках генома, в зависимости от их функциональной роли. Стандартный подход состоит в выявлении рецидивных драйверных мутаций, сопровождающих или вызывающих злокачественную трансформацию клеток. Однако, не меньший интерес представляют и побочные мутации, возможно, возникшие еще до злокачественной трансформации, которые не являются напрямую онкогенными, но могут вносить существенный индивидуальный вклад в регуляцию экспрессии и фенотип. Тот факт, что энхансеры в целом чувствительны к однонуклеотидным заменам [Li и др., 2016], подтверждает возможность локализации конкретных регуляторных районов, хрупких по отношению к соматическим паттернам мутагенеза. Недавно в открытом доступе появились полногеномные данные по соматическому мутагенезу в стволовых клетках здоровых взрослых организмов [Blokzijl и др., 2016]. Для кодирующих областей известных онкогенов спектр мутаций в стволовых клетках уже был проанализирован: выяснилось, что он имеет заметное сходство с раковым. То есть, соматический мутагенез, происходящий в кодирующих областях генома, имеет потенциал для злокачественной трансформации стволовых клеток. На наш взгляд, аналогичный вопрос необходимо прояснить и для регуляторных областей, управляющих экспрессией, причем как известных онкогенов, так и генов, участвующих в поддержании плюрипотентности. Частота соматических мутаций в стволовых клетках, по сравнению с раковыми, невысока. Мы ожидаем, что прямой анализ локализации мутаций в регуляторных областях даст только ограниченную информацию в силу малых выборок, а общие закономерности (например, связь локализации мутаций со временем репликации) уже были выявлены авторами экспериментальных данных. Мы предлагаем альтернативный вариант: идентифицировать области, потенциально доступные для мутагенеза, и внутри них провести анализ ко-локализации мутационных контекстов (паттернов, в среднем характерных для окрестности реальных мутаций) и регуляторных паттернов (соответствующих сайтам связывания факторов транскрипции). Это можно сделать на нескольких уровнях: во-первых, оценить общее сходство регуляторных паттернов и мутационных контекстов; во-вторых, оценить кластеризацию тех и других в протяженных регуляторных участках генома. Интересно, что традиционный анализ мутационной подписи обычно ограничивается только локальным контекстом (ближайшие 5’ и 3’ нуклеотиды к позиции мутации), но в геномах некоторых типов раковых клеток существуют и заметно более длинные мутационные контексты [Fredriksson и др., 2017], которые могут значительно определять специфичность мутагенеза. Для анализа ко-локализации паттернов мутагенеза в регуляторных районах будут использованы данные проекта FANTOM5 по транскрипционной активности и информация по связыванию регуляторов транскрипции in vivo, полученная с помощью технологии ChIP-Seq и доступная в систематическом виде в базе данных GTRD. (1) Мы проведем идентификацию мотивов в ChIP-Seq данных и расширим спектр регуляторных паттернов, представленных в авторской базе данных HOCOMOCO. Точность мотивов, ранее представленных нами в HOCOMOCO, уже подтверждалась рядом независимых исследований . В том числе, HOCOMOCO успешно использовалась в ходе международного соревнования по предсказанию сайтов связывания факторов транскрипции ENCODE-DREAM, где в первом раунде наша команда заняла лидирующую позицию, а команда-лидер второго раунда (Guan lab) для победы использовала наши модели из HOCOMOCO. На новом этапе мы планируем анализ почти в двое большего объема ChIP-Seq данных (по сравнению с опубликованной версией HOCOMOCO), что позволит расширить спектр представленных факторов транскрипции и предложить более точные модели для сайтов связывания факторов, для которых ранее не использовались данные по связыванию in vivo. (2) Мы выделим характерные длинные контексты мутагенеза в стволовых клетках и проведем их сравнение с паттернами сайтов связывания факторов транскрипции. Затем мы произведем поиск и анализ ко-локализации контекстов мутагенеза и паттернов сайтов связывания в областях, определенных с помощью ChIP-Seq, как глобально во всем цистроме (регуляторном ландшафте связывания факторов транскрипции, построенных по информации для всего множества клеточных типов), так и специфично для стволовых клеток. В частности, будут идентифицированы области с повышенной плотностью мутагенных контекстов и похожих на них регуляторных паттернов. Локализация таких областей будет изучена относительно промоторов и энхансеров известных онкогенов и ключевых генов поддержания плюрипотентности. Верификация предсказаний будет проведена путем сопоставления с информацией об аллель-специфичном связывании по данным ChIP-Seq [Chen и др., 2016] и локализацией известных eQTL.

Ожидаемые результаты
Будут получены следующие результаты: (1) построена расширенная коллекция паттернов ДНК-белкового узнавания для факторов транскрипции человека путем систематического анализа результатов более тысячи ChIP-Seq экспериментов; (2) выявлена структура длинных нуклеотидных контекстов, в которых наблюдается повышенная частота мутаций в стволовых клетках взрослого организма, оценено соответствие мутирующих контекстов и регуляторных паттернов, связываемых факторами транскрипции, (3) построена геномная карта «хрупких» регуляторных областей, в которых кластеризуются мутагенные контексты и сайты связывания факторов транскрипции, и выявлены гены-мишени, потенциально находящиеся под контролем таких регуляторных областей. Планируемые результаты соответствуют мировому уровню исследований.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2017 году
Работа по проекту проводилась в двух направлениях: (1) Развитие знаний о транскрипционной регуляции у человека путем систематического вычислительного анализа доступных данных по иммунопреципитации хроматина с последующим глубоким секвенированием (ChIP-Seq). В рамках этого направления по данным открытой базы GTRD было выполнено построение геномной карты регуляторных районов, связываемых белками-факторами транскрипции человека. Для нескольких сотен белков удалось идентифицировать по нескольку тысяч участков связывания, устойчиво воспроизводимых в различных экспериментах или конститутивно связываемых в различных типах клеток. Была успешно проведена идентификация и тестирование вычислительных моделей мотивов связывания факторов транскрипции. Это позволило значительно уточнить и расширить коллекцию мотивов связывания. Обновленный релиз коллекции доступен в сети Интернет по адресу http://hocomoco.autosome.ru. (2) Выявление характерных паттернов мутагенеза в соматических стволовых клетках и приоритизация мотивов связывания факторов транскрипции по сходству с мутационными паттернами. В рамках этого направления был проведен статистический анализ локальных мутационных контекстов в геномах соматических стволовых клеток: как напрямую с точки зрения представленности конкретных ДНК-слов, так и с точки зрения ко-локализации мотивов связывания и мутаций. Был успешно выявлен ряд семейств факторов транскрипции, мотивы связывания которых демонстрируют повышенное сходство с мутационными подписями. На следующей стадии проекта мы планируем использовать обновленные мотивы и цистромную карту для того чтобы верифицировать ко-локализацию сайтов связывания и мутаций на вхождениях мотивов в районах, реально связываемых факторами транскрипции. Публикации по проекту (2018) I.V. Kulakovskiy, I.E. Vorontsov, I.S. Yevshin, R.N. Sharipov, A.D. Fedorova, E.I. Rumynskiy, Y.A. Medvedeva, A. Magana-Mora, V.B. Bajic, D.A. Papatsenko, F.A. Kolpakov, V.J. Makeev; HOCOMOCO: towards a complete collection of transcription factor binding models for human and mouse via large-scale ChIP-Seq analysis. Nucleic Acids Res, gkx1106, doi:10.1093/nar/gkx1106

 

Публикации

1. Кулаковский И.В., Воронцов И.Е., Евшин И.С., Шарипов Р.Н., Федорова А.Д., Руминский Е.И., Медведева Ю.А., Магана-Мора А., Бажич В.Б., Папаценко Д.А., Макеев В.Ю. HOCOMOCO: towards a complete collection of transcription factor binding models for human and mouse via large-scale ChIP-Seq analysis Nucleic Acids Research, 46(D1):D252-D259 (год публикации - 2017) https://doi.org/10.1093/nar/gkx1106


Аннотация результатов, полученных в 2018 году
На предыдущем этапе, мы провели предварительное сравнение ко-локализации мутаций в соматических стволовых клетках и вхождений мотивов, соответствующих ДНК-паттернам сайтов связывания факторов транскрипции, безотносительно локализации реальных регуляторных районов. На новом этапе, мы проводили анализ ко-локализации мутаций и вхождений мотивов внутри регионов генома, достоверно связываемых фактором транскрипции хотя бы в одном из экспериментально изученных типов клеток, и оценили возможную роль метилирования в мутагенезе сайтов связывания в соматических стволовых клетках. В первую очередь мы расширили набор используемых данных, в дополнение к использованным ранее наборам мутаций из [Blokzijl и др., 2016] мы рассмотрели мутации в индуцированных плюрипотентных стволовых клетках (ИПСК) [Yoshihara и др., 2017] и миосателлитах [Franco и др., 2018]. Мы провели декомпозицию мутационных подписей («сигнатур») и выявили 3 характерных подписи: подпись 1 типа [C>T]G в ССК; подпись 2 преимущественно [C>A] в индуцированных стволовых клетках и культивируемых in vitro; подпись 3 без выраженного типа замен в ССК печени и миосателлитах. Дальнейший анализ не выявил нетривиальных эффектов с точки зрения регуляторных последовательностей для подписей 2-3. Подпись 1 соответствует типичному мутагенезу в результате дезаминирования цитозина в CpG-парах. Сравнение положения мутаций с информацией о статусе метилирования отдельных CpG [Lioznova et al., 2018] показало, что CpG в промежуточном состоянии метилирования действительно обогащены мутациями, что согласуется с литературными данными [Xia, Han, Zhao, 2012]. На уровне полного цистрома, составленного из областей связывания различных факторов транскрипции [Vorontsov и др., 2018], мы не выявили нетривиальных эффектов, цистром оказался слабо обеднен мутациями. Однако, неожиданный эффект проявился в ходе детального анализа вхождений мотивов из коллекции HOCOMOCO v11 [Kulakovskiy и др., 2018]. С одной стороны, мутации часто происходят в характерных контекстах, например, в CCCCG-боксах. С другой стороны, CCCCG-боксы, соответствующие сайтам связывания в цистроме транскрипционных факторов SP- и KLF- семейств оказались в два и более раз обеднены мутациями, причем похожий эффект наблюдался для мотивов метил-связывающих белков (MBD2, KAISO, MECP2), E-бокс-связывающих белков, и некоторых других белков с выраженной CG-парой в сайте связывания. Интересно, что СCCCG-бокс связывающие факторы толерантны к метилированию своих сайтов [Yin и др., 2017]; с другой стороны, уже связанные с ДНК факторы могут препятствовать метилированию своих сайтов [Blattler, Farnham, 2013]. Таким образом, даже если метилирование происходит, сайт связывания сохраняет аффинность к белку, и белок затем может механически защищать метилированную CG-пару от возможного спонтанного дезаминирования. То есть, наши данные свидетельствуют в пользу гипотезы о защитной роли факторов транскрипции в мутагенезе регуляторных областей. Мы обнаружили и обратный эффект: ДНК-сайты белков CEBP-семейства оказались существенно обогащены мутациями в центральной CG-паре, что ранее наблюдалось для мутаций, обнаруженных в раковых опухолях [Melton и др., 2015]. При этом, связывание CEBP-белков сложным образом зависит от статуса метилирования CG-пар, а некоторые члены CEBP-семейства способны сами вызывать смену статуса метилирования регуляторных районов. Возможно, регулярное изменение состояния точечного метилирования сайта приводит к возрастанию частоты мутагенеза. В свою очередь, мутагенез «переключаемого» сайта исключает дальнейшее метилирование и деметилирование, т.е. фиксирует аффинность, что вероятно может привести к сбою CEBP-зависимой «регуляторной программы». Дальнейший анализ мутаций и экспрессионных данных в опухолевых образцах может помочь проверке этой гипотезы. Публикации по проекту (2019) A.V. Lioznova, A.M. Khamis, A.V. Artemov, E. Besedina, V. Ramensky, V.B. Bajic, I.V. Kulakovskiy, Y.A. Medvedeva; CpG traffic lights are markers of regulatory regions in human genome. BMC Genomics, 20:102, doi:10.1186/s12864-018-5387-1 (2018) I.E. Vorontsov, A.D. Fedorova, I.S. Yevshin, R.N. Sharipov, F.A. Kolpakov, V.J. Makeev, I.V. Kulakovskiy; Genome-wide map of human and mouse transcription factor binding sites aggregated from ChIP-Seq data. BMC Research Notes, 11(1): 756, doi:10.1186/s13104-018-3856-x Интернет-ресурсы 1. HOCOMOCO: коллекция моделей ДНК-паттернов («мотивов»), узнаваемых факторами транскрипции человека и мыши. В коллекции представлены традиционные мононуклеотидные позиционно-весовые матрицы, и улучшенные динуклеотидные матрицы, учитывающие корреляции между соседними нуклеотидами, построенные путем систематического анализа данных экспериментов по иммунопреципитации хроматина с последующим высокопроизводительным секвенированием (ChIP-Seq). http://hocomoco.autosome.ru 2. Геномная карта «цистрома» - потенциальных регуляторных участков, связываемых факторами транскрипции человека и мыши, агрегированная по данным ChIP-Seq, и аннотированная вхождениями ДНК-паттернов мотивов связывания соответствующих факторов транскрипции. https://figshare.com/articles/Human_and_mouse_cistromes_genomic_maps_of_putative_cis-regulatory_regions_bound_by_transcription_factors/7087697

 

Публикации

1. Воронцов И.Е., Федорова А.Д., Евшин И.С., Шарипов Р.Н., Колпаков Ф.А., Макеев В.Ю., Кулаковский И.В. Genome-wide map of human and mouse transcription factor binding sites aggregated from ChIP-Seq data BMC Research Notes, 11:756 (год публикации - 2018) https://doi.org/10.1186/s13104-018-3856-x

2. Ершова А.С., Елисеева И.А., Никонов О.С., Федорова А.Д., Воронцов И.Е., Папаценко Д., Кулаковский И.В. Enhanced C/EBP binding to G·T mismatches facilitates fixation of CpG mutations in cancer and adult stem cells Cell Reports, 35, 10, 109221 (год публикации - 2021) https://doi.org/10.1016/j.celrep.2021.109221

3. Лиознова А.В., Хамис А.М., Артемов А.В., Беседина Е., Раменский В., Бажич В.Б., Кулаковский И.В., Медведева Ю.А. CpG traffic lights are markers of regulatory regions in human genome BMC Genomics, 20:102 (год публикации - 2019) https://doi.org/10.1186/s12864-018-5387-1


Возможность практического использования результатов
-