КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ
Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.
ОБЩИЕ СВЕДЕНИЯ
Номер проекта 25-21-00424
НазваниеИнтерпретируемые модели машинного и глубинного обучения для предсказания генетических механизмов формирования лекарственной устойчивости Mycobacterium tuberculosis
Руководитель Неверов Алексей Дмитриевич, Кандидат биологических наук
Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский университет "Высшая школа экономики" , г Москва
Конкурс №102 - Конкурс 2025 года «Проведение фундаментальных научных исследований и поисковых научных исследований малыми отдельными научными группами»
Область знания, основной код классификатора 01 - Математика, информатика и науки о системах; 01-205 - Математические модели в науках о живом
Ключевые слова Машинное обучение, искусственный интеллект, языковые модели, полногеномные метаболические модели, нейро-механистические модели, туберкулез, лекарственная устойчивость
Код ГРНТИ27.35.43
ИНФОРМАЦИЯ ИЗ ЗАЯВКИ
Ожидаемые результаты
В результате выполнения проекта, мы разработаем новые математические и вычислительные подходы к предсказанию лекарственной устойчивости MTB на основе методов искусственного интеллекта.
1) Для уменьшения размерности пространства генотипов мы создадим новые признаки для агрегации редких мутаций с использованием информации о сравнительной эволюции белков в разных видах бактерий, которые будут иметь более высокую частоту встречаемости в популяции MTB, чем отдельные мутации, и отражать влияние мутаций на функции белков.
2) Будет разработан метод на основе языковых моделей, предсказывающий лекарственную устойчивость, а также определяющий соответствующие мутации, обуславливающие её. Также будет разработан метод на основе гибридной нейронно-механистической модели, использующей известные полногеномные метаболические модели MTB и НС методы ИИ (в частности, языковые модели и глубинное обучение с подкреплением).
3) Для обучения и тестирования моделей будет подготовлена собранная по открытым источникам база генотипов MTB с охарактеризованными лекарственными фенотипами.
4) Будет проведен анализ экспериментальных данных, собранных из открытых источников, с целью обнаружения новых генов и мутаций, ассоциированных с лекарственной устойчивостью.
Значимость результатов с методологической точки зрения заключается в разработке нового интерпретируемого метода для предсказания фенотипа по генотипу. По меньшей мере этот метод позволит определять ассоциации генетических вариантов с фенотипом. В лучшем случае новый метод позволит определять молекулярные механизмы, обуславливающие возникновение фенотипа (например, ЛУ возбудителя туберкулеза). Так, гибридная нейромеханистическая модель позволит определить, как мутации влияют на интенсивность потоков метаболитов через биохимические реакции и даст возможность определить, какие изменения метаболизма приводят к ЛУ.
Применение в составе модели агрегации редких мутаций в функциональные признаки, предсказывающие степень изменения функций белков позволит увеличить мощность классификатора за счет улучшения обобщающих свойств модели.
Прикладная значимость проекта заключается в разработке отечественного программного обеспечения (ПО) для предсказания ЛУ MTB на основании полногеномного высокопроизводительного секвенирования. В перспективе, данное ПО может быть внедрено в клиническую практику для индивидуального подбора терапии больным туберкулезом.
Разработанное ПО может быть применено для поиска новых генов и мутаций вызывающих ЛУ.
В совокупности, ожидаемые результаты проекта обладают как фундаментальной, так и практической значимостью.
По результатам работы планируется публикация трех статей (2025 - 1,
2026 - 2).
ОТЧЁТНЫЕ МАТЕРИАЛЫ
Аннотация результатов, полученных в 2025 году
За отчетный период были выполнены следующие работы:
Подготовлено два набора данных полногеномных генотипов MTB для которых были охарактеризованы фенотипические состояния к противотуберкулезным препаратам. Первый набор данных содержит генотипы 11822 изолятов M. tuberculosis (MTB), охарактеризованных для 13 препаратов. Второй набор данных содержит 5588 полногеномных генотипов консорциума CRyPTIC с описанными лекарственными фенотипами для 13 препаратов (из которых первый набор данных был охарактеризован по шести препаратам). Была разработана процедура фильтрации ошибок определения генетических вариантов в генотипах MTB относительно референсной последовательности генома H37rv. Полногеномные генотипы в наборах данных представлены в виде списков генетических вариантов относительно референсной последовательности. Варианты в кодирующей части генома представлены относительно последовательностей соответствующих белков. Варианты с похожими эффектами на действие лекарств представлены агрегирующими признаками (“потеря функции белка” и “изменение функции домена”).
Разработан новый метод агрегации мутаций в доменах белков по силе их эффекта на функцию домена и лекарственные фенотипы. Проведен анализ эффектов генетических вариантов на лекарственные фенотипы MTB. Для этого мы разработали новый филогенетический метод полногеномного ассоциативного исследования который находит множество сайтов и множество генов, замены в которых ассоциированы с чувствительностью или устойчивостью к определенному препарату. Были выявлены новые гены и мутации ассоциированные с лекарственной устойчивостью, например, мутации в генах белков, предположительно управляющих составом клеточной стенки (adhD и Rv1500) и мутации в генах, потенциально ассоциированных со снижением метаболической активности и возникновением толерантности (moeB2, glpK и ppnK). Было показано наличие положительного отбора в генах rpoC и Rv3193c на фоне приобретенной лекарственной устойчивости. Был обнаружен эпистаз между сайтами, отбор в которых зависит от действия препаратов. Среди сайтов, мутации в которых вызывают устойчивость согласно каталогу ВОЗ, была найдена 1 пара сайтов в положительном эпистазе и 14 пар сайтов в отрицательном эпистазе; 9 из 14 пар были образованы сайтами, мутации в которых вызывают устойчивость к препаратам одного и того же класса. Также было обнаружено 9 сайтов, замены в которых не вызывают устойчивость, но либо компенсируют снижение приспособленности, вызванное мутациями устойчивости, либо предваряют их возникновение. Результаты исследования были доложены на международной конференции SMBE 2025, и опубликованы в статье - Popova et. al. Unraveling Epistatic Interactions Between Sites Under Drug-Dependent Selection in the Mycobacterium tuberculosis Genome. Molecular Biology and Evolution, Volume 42, Issue 11, November 2025, msaf264, https://doi.org/10.1093/molbev/msaf264
Разработана архитектура гибридной нейромеханистической модели которая включает в себя отображение генотипа бактерии на пространство скрытых переменных, интерпретируемое как диапазон допустимых для данного генотипа скоростей метаболических реакций, внутри которого другая нейронная сеть, вычисляет диапазон скоростей, соответствующий максимальной скорости роста клетки и третья нейронная сеть использует выход со второй сети для классификации генотипа относительно устойчивости или чувствительности к препаратам. На данный момент модель была реализована и протестирована в виде двух независимых частей по отдельности. Первая часть реализует классификатор, отображающий генотип бактерии на метки чувствительного и устойчивого классов, минуя метаболическую модель. Вторая часть реализует решение задачи линейного программирования для поиска диапазона оптимальных скоростей реакций в метаболической модели MTB iEK1011 в виде GNN.
Публикации
1.
А.В. Попова, Д.И. Быкова, Г.Г. Федонин, Д.В. Босов, К.О. Решетников и А.Д. Неверов
Unraveling Epistatic Interactions Between Sites Under Drug-Dependent Selection in the Mycobacterium tuberculosis Genome
Molecular Biology and Evolution, 42(11):msaf264 (год публикации - 2025)
10.1093/molbev/msaf264