КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер проекта 25-14-00491

НазваниеИсследование ландшафтов приспособленности и эпистаза и их связи со структурой белка

Руководитель Иванков Дмитрий Николаевич, Кандидат физико-математических наук

Организация финансирования, регион Автономная некоммерческая образовательная организация высшего образования «Сколковский институт науки и технологий» , г Москва

Конкурс №104 - Конкурс 2025 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами»

Область знания, основной код классификатора 04 - Биология и науки о жизни; 04-202 - Протеомика; структура и функции белков

Ключевые слова эпистаз, ландшафт приспособленности, фенотип, стабильность белка, изменение стабильности белка вследствие мутации, комбинаторно полный набор данных, знаковый эпистаз, взаимный знаковый эпистаз, одномерный эпистаз, многомерный эпистаз, случайный мутагенез, множественная линейная регрессия, множественная нелинейная регрессия, нейронные сети, глубокое обучение

Код ГРНТИ34.03.23


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Проект направлен на решение фундаментальной научной проблемы в области молекулярной биологии и структурной биоинформатики: понимание взаимосвязи между ландшафтами приспособленности и структурой белка, в частности, с акцентом на эпистаз. Эпистаз, определяемый как зависимость эффекта мутации от генетического контекста, представляет собой значительное препятствие в предсказании фенотипа по генотипу. Предлагаемый проект посвящен систематическому изучению типы и количество эпистаза, присутствующего в экспериментальных ландшафтах приспособленности, и их корреляцию со структурными характеристиками белка. Значимость этого исследования заключается в его потенциале для улучшения предсказательных моделей стабильности белка, что имеет решающее значение для различных биологических функций. Актуальность рассмотрения эпистаза подчеркивается его ролью как принципиального препятствия для точного предсказания фенотипа по генотипу. Мы понимаем, как специфические взаимодействия внутри белков и РНК приводят к компенсаторным заменам — называемым «взаимным знаковым эпистазом», который относится к типу многомерного эпистаза. Несмотря на свою важность, многомерный эпистаз остается плохо изученным, часто его путают с эпистазом высокого порядка. Цель этого проекта — прояснить эти концепции путем систематического исследования многомерного эпистаза и его связи со структурой белка. Одним из основных фенотипов, представляющих интерес, является стабильность белка, которая жизненно важна для правильного функционирования белка. Несмотря на значительные достижения в области дизайна белков, отмеченные Нобелевской премией по химии 2024 года, простейшая задача дизайна белков по предсказанию изменения стабильности вследствие мутаций, остается нерешенной. Путем анализа всеобъемлющего набора данных об изменениях стабильности в различных белках предлагаемый проект направлен на повышение точности таких предсказаний. Для достижения целей Проекта, будут исследованы ландшафты приспособленности и их связь со структурами глобулярных белков. Планируется три направления исследований: Анализ ландшафта приспособленности: Определение всех комбинаторно полных структур в опубликованных ландшафтах приспособленности и расчет связанных эпистатических эффектов. Разработка алгоритма для вычисления размерности многомерного эпистаза и исследование его зависимости от размера ландшафта. Исследование новых типов многомерного эпистаза и их распространенности в существующих наборах данных с соотнесением этих результатов со структурными характеристиками белков. Будут проведено исследование того, как эволюционные пути связаны с размерностью многомерного эпистаза. Анализ ландшафтов стабильности белков: Проведение автокорреляционного анализа ландшафтов стабильности для улучшения разбиения данных для приложений машинного обучения. Создание гибридной модели, которая использует физические принципы наряду с методами машинного обучения для предсказания изменений стабильности вследствие мутаций. Анализ ландшафта пептидов для масс-спектрометрии: Разработать алгоритмы для генерации заданного числа максимально разнообразных детектируемых пептидов для нужд масс-спектрометрии. Масштаб и сложность этого проекта характеризуются анализом более трех миллионов точек данных по 25 ландшафтам приспособленности и наборам данных об изменении стабильности более 200 белков. Этот обширный набор данных формирует основу для достижения целей проекта. Практически все предлагаемые задачи являются новым вкладом в науку. Предлагаемый проект направлен не только на углубление нашего понимания ландшафтов приспособленности и их связи со структурой белков, но и стремится предоставить практические инструменты, тем самым расширяя наши возможности в дизайне белков и предсказании фенотипа по генотипу. Результаты Проекта будут основой для более точных методов предсказания фенотипа по генотипу, в конечном итоге внеся значительный вклад в эволюционную биологию и белковый дизайн.

Ожидаемые результаты
Ожидаемые результаты проекта включают: 1. Идентификация всех комбинаторно полных наборов данных в больших экспериментальных ландшафтах приспособленности. 2. Установление инструментального определения для размерности многомерного эпистаза. 3. Открытие и классификация новых типов многомерного эпистаза. 4. Исследование взаимосвязи между доступными эволюционными путями и размерностью многомерного эпистаза. 5. Разработка алгоритма, который включает парные эпистатические термины в расчеты потенциала приспособленности. 6. Сравнительный анализ физико-химических свойств по сравнению с one-hot кодированием в предсказаниях нейронных сетей. 7. Комплексный анализ автокорреляции в эволюционных ландшафтах. 8. Исправление ошибок, связанных с взаимным знаковым эпистазом в многопиковых ландшафтах. 9. Новые методологии для прогнозирования изменений стабильности из-за одиночных мутаций. 10. Создание алгоритмов для генерации баркодов – пептидных библиотек, адаптированных для приложений тандемной масс-спектрометрии. Описанный исследовательский проект не только решает фундаментальные научные вопросы молекулярной биологии, но и имеет значительный практический потенциал в различных областях. Вот некоторые ключевые области, в которых результаты этого исследования могут иметь важное практическое применение: 1. Разработка лекарств: улучшенное понимание стабильности белков и способность предсказывать изменения, вызванные мутациями, могут значительно ускорить процессы открытия лекарств, что может помочь в (i) разработке более стабильных и эффективных терапевтических белков, (ii) предсказании потенциальных мутаций устойчивости к лекарствам в целевых белках, (iii) оптимизации кандидатов на лекарства для лучшей эффективности и снижения побочных эффектов 2. Белковая инженерия: знания, полученные в результате анализа ландшафта приспособленности и исследований эпистаза, могут быть полезными в работах по белковой инженерии, что может привести к (i) созданию ферментов с повышенной каталитической активностью для промышленного применения, (ii) разработке более стабильных и функциональных белков для биотехнологических применений, (iii) улучшенной конструкции биосенсоров и диагностических инструментов 3. Персонализированная медицина: способность лучше предсказывать фенотипы по генотипам может иметь глубокие последствия для персонализированной медицины, что может помочь в (i) более точном прогнозировании восприимчивости к болезням на основе генетических вариантов, (ii) индивидуальных стратегиях лечения на основе индивидуальных генетических профилей, (iii) Улучшенное понимание генетических факторов в реакциях на лекарства 4. Масс-спектрометрические приложения: Разработка алгоритма для создания библиотек баркодов будет иметь прямое применение в исследованиях протеомики, что обеспечит идентификацию многих вариантов схожих белков (например, мутантов одного и того же белка). 5. Проектирование биоматериалов: Разработка новых биоматериалов с индивидуальными свойствами. Хотя проект в основном сосредоточен на продвижении нашего научного понимания ландшафтов приспособленности и структуры белков, его потенциальные практические последствия имеют далеко идущие последствия. Знания и инструменты, разработанные в ходе этого исследования, могут катализировать инновации во многих секторах, от здравоохранения и сельского хозяйства до охраны окружающей среды и промышленной биотехнологии, в конечном итоге способствуя значительным социальным и экономическим выгодам.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2025 году
Эпистаз — зависимость эффекта мутации от генетического контекста — представляет собой одно из главных препятствий на пути предсказания фенотипа по генотипу. Поэтому изучение особенностей эпистаза и разработка методов его предсказания имеют ключевое значение для эволюционной биологии. В рамках проекта были получены следующие результаты. В 2011 году Польвейк с соавторами (Poelwijk et al., 2011) доказали фундаментальную теорему, устанавливающую, что в любом многопиковом ландшафте приспособленности обязательно присутствует взаимный знаковый эпистаз (reciprocal sign epistasis, RSE) — ситуация, при которой две одиночные мутации, вредные по отдельности, становятся взаимно компенсирующими в определённом генетическом контексте. Однако доказательство этой теоремы опирается на предположение, что все генотипы имеют строго различающиеся значения приспособленности, что исключает наличие нейтральных мутаций. В нашей работе (doi: 10.1101/2025.09.30.679656) мы обобщили этот результат на случаи, когда фенотипы некоторых генотипов совпадают. Показано, что если равные фенотипы принадлежат несоседним генотипам (т.е. не связаны нейтральными мутациями), теорема Польвейка продолжает быть верной. Однако в присутствии нейтральных мутаций многопиковость ландшафта не гарантирует наличие обычного (парного) RSE. Гарантированное существование RSE возможно лишь при расширении определения — введении «общего» (или дистантного) RSE, учитывающего компенсацию эффектов не отдельных, а составных мутаций. Более того, мы продемонстрировали, что на практике, при поиске RSE в экспериментальных данных, даже при заведомой многопиковости экспериментальный шум может сделать RSE принципиально недетектируемым. Нелинейные преобразования фенотипических данных неизбежно влияют на количественную оценку эпистаза. Возникает естественный вопрос: можно ли уменьшить эпистаз, обусловленный нелинейностью измерений? В 2017 году был предложен метод степенного преобразования (power transform) для линеаризации ландшафтов приспособленности (Sailer, Harms, 2017), однако он был применен лишь к небольшим наборам данных (32-64 генотипа). Мы обнаружили, что степенное преобразование не всегда снижает наблюдаемый эпистаз — в ряде случаев оно даже усиливает его. Более того, оригинальная реализация метода оказалась неприменимой к крупномасштабным данным. В связи с этим мы разработали собственную устойчивую имплементацию, включающую как трансформацию Бокса-Кокса, так и более гибкую трансформацию Йео-Джонсона, не требующую неотрицательности данных и промежуточных значений приспособленности. Впервые метод был успешно применён к масштабному экспериментальному ландшафту зелёного флуоресцентного белка (GFP, >50000 вариантов; Sarkisyan et al., 2016). При анализе крупнейшей связной компоненты (20 872 генотипа) трансформация Йео-Джонсона снизила попарный эпистаз на 3,86%, а эпистаз третьего порядка — на 11,6%. Тем самым мы продемонстрировали, что степенное преобразование применимо к большим ландшафтам, но только при условии анализа их связных подмножеств (doi:10.64898/2025.12.09.693289). Нами был проведён сравнительный анализ эпистатической структуры реальных и модельных ландшафтов. На основе данных по WW-домену, белку RRM2 и 11 ландшафтам из работы Pokusaeva et al. (2019) нами было показано, что распределения эпистатических коэффициентов в реальных системах статистически значимо отличаются (p < 0,05) от распределений, генерируемых как в модели «карточного домика», так и в классической NK-модели. Это указывает на недостаточность этих теоретических моделей для описания эпистаза в настоящих белковых ландшафтах. Наконец, нами улучшена нейросетевая модель предсказания флуоресценции GFP за счёт замены традиционного one-hot кодирования на физико-химическое представление аминокислот с использованием 10-мерных векторов факторов Кидеры. Такой подход позволил не только повысить точность и устойчивость предсказаний, но и ускорить обучение, а также обеспечить надёжную экстраполяцию на редкие и ранее не встречавшиеся мутации, включая те, которых нет в обучающей выборке.

 

Публикации

1. Иванков Д.Н., Зорин Е.М. Sign epistasis can be absent in multi-peaked landscapes with neutral mutations bioRxiv, 2025.09.30.679656 (год публикации - 2025)
10.1101/2025.09.30.679656

2. Петров Д.А., Иванков Д.Н. Assessing nonlinearities in the GFP random mutagenesis landscape using the Power Transform bioRxiv, 2025.12.09.693289 (год публикации - 2025)
10.64898/2025.12.09.693289

3. Лыскова А.О., Абасов Р.Х., Павлова А., Матвеев Е.В., Мадорская А., Казанов Ф.М., Гаршина Д.В., Смольникова А.Е., Пономарев Г.В., Шарова Е.И., Иванков Д.Н., Адебали О., Гельфанд М.С., Казанов М.Д. Analysis of MPXV RNA-seq Data Reveals Lack of Evidence of APOBEC3-mediated RNA Editing bioRxiv, 2025.07.21.665962 (год публикации - 2025)
10.1101/2025.07.21.665962