КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер проекта 25-21-20111

НазваниеРазработка интегрированного подхода на основе методов выравнивания последовательностей и глубокого обучения для повышения качества программного конвейера анализа данных полногеномного секвенирования человека

Руководитель Карпулевич Евгений Андреевич, Кандидат физико-математических наук

Организация финансирования, регион Федеральное государственное бюджетное учреждение науки Институт системного программирования им. В.П. Иванникова Российской академии наук , г Москва

Конкурс №100 - Конкурс 2025 года «Проведение фундаментальных научных исследований и поисковых научных исследований малыми отдельными научными группами» (региональный конкурс)

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах; 01-720 - Алгоритмическое и программное обеспечение для здравоохранения и биологии

Ключевые слова методы выравнивания, полногеномное секвенирование, глубокое обучение, программный конвейер, биоинформатика, NGS, выравнивание коротких прочтений, дообучение, нейронные сети

Код ГРНТИ34.03.23


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Ожидаемые результаты
Основными результатами проекта являются: - Продвинутый метод выравнивания коротких прочтений на специализированный референсный геном (состоящей из фиксированной референсной сборки генома с добавлением известных инсерций), основанный на модификации индекса референсного генома инструмента minimap2 генетическими вариантами проекта HPRC (Human Pangenome Reference Consortium), с последующим применением алгоритма конвертации геномных координат выровненных прочтений реализованном при помощи инструмента levioSAM2 - Модель инструмента идентификации генетических вариантов DeepVariant, дообученная с помощью данных выровненных вновь разработанным методом выравнивания - Реализация интегрированного подхода на основе разработанных метода выравнивания генетических последовательностей и модели глубокого обучения в рамках программного конвейера анализа данных полногеномного секвенирования человека - Оценка качества работы программного конвейера с использованием данных проекта GIAB (Genome in a Bottle) и инструмента hap.py (Haplotype VCF comparison tool) Разработанный подход позволит повысить качество выравнивания и идентификации генетических вариантов в полногеномных данных NGS, что в свою очередь даст положительный эффект при решении ряда научных задач. Примерами задач, которые чувствительны к качеству идентификации генетических вариантов, являются такие задачи как проведение полногеномных исследований ассоциаций (GWAS), разработка персонализированных методов диагностики и лечения, исследование редких заболеваний. Задачи и ожидаемые результаты проекта находятся на переднем крае исследований в области биоинформатики опираясь на тенденции развития выравнивания с применением графовых индексов и использования потенциала больших открытых данных. В дальнейшем разработанный метод позволит использовать результаты проектов по массовому секвенированию людей, например таких как дальнейшие этапы проекта HPRC. Также разработанный подход может быть специализирован под определенные человеческие популяции через модификацию индекса инструмента minimap2 популяционными вариантами или адаптирован под другие организмы.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2025 году
В отчетный период был доработан и опробован конвейер анализа данных полногеномного секвенирования человека. Цель доработки — повысить точность вызова генетических вариантов и при этом сохранить использование стандартных форматов для дальнейшего использования распространенных инструментов аналитики NGS данных. Реализован способ выравнивания прочтений на расширенный референсный геном GRCh38. К базовому референсу добавляются альтернативные контиги, сформированные по набору инделей из Human Pangenome Reference Consortium (HPRC). Вокруг выбранных вариантов строятся фланкирующие последовательности фиксированной длины, в них встраиваются альтернативные аллели, после чего полученные последовательности добавляются к линейному GRCh38 и индексируются minimap2 в режиме для коротких прочтений. Координаты итоговых выравниваний затем переводятся из системы расширенного референса в линейную систему GRCh38 с помощью LevioSAM2, обеспечивая совместимость с дальнейшими этапами анализа. Модифицированный метод выравнивания интегрирован в nf-core/sarek. В конвейере последовательно используются minimap2 (выравнивание на расширенный референс), LevioSAM2 (перенос координат), ABRA2 (локальное перевыравнивание областей с инделями), затем для определения вариантов выполняется иснтрумент DeepVariant. Настроены профили для запуска на SLURM-кластере облачной инфраструктуры НЦМУ ИСП РАН, реализована работа через Docker-контейнеры. Конвейер обеспечивает полный цикл обработки от FASTQ до VCF и рассчитан на обработку серий полногеномных образцов. Результаты получены с использованием услуг Центра коллективного пользования Института системного программирования им.В.П.Иванникова РАН – ЦКП ИСП РАН. Качество решения оценено на эталонных данных Genome in a Bottle (образец HG002, парные прочтения длиной 150 п.н., набор FDA PrecisionFDA Truth Challenge V2). В качестве «золотого стандарта» использована аннотация GIAB, сравнение выполнялось с помощью иснтрумента hap.py. Сопоставлялись два варианта: (1) базовое выравнивание только на линейный GRCh38 и (2) выравнивание на расширенный референс с последующим переносом координат. По результатам зафиксирован прирост метрик Precision, Recall и F1-score для SNP и инделей. Результаты по модификации выравнивания и встраиванию решения в конвейер описаны в статье «Оптимизация выравнивания коротких прочтений с инделями при полногеномном секвенировании» в журнале «Труды Института системного программирования РАН» (том 37, вып. 6, часть 2, 2025, стр. 211-222. DOI: 10.15514/ISPRAS-2025-37(6)-30) [1]. Дополнительно методы оценки качества идентификации вариантов по данным геномных трио использованы и развиты в статье «A Method for Calculating Whole-Genome Sequencing Outcomes from Trio Data» в журнале Algorithms (MDPI Algorithms 2025, 18(10), 610; DOI: 10.3390/a18100610) [2]; эти результаты применяются для проверки согласованности наборов вариантов, полученных с помощью текущего конвейера. Результаты проекта представлены на нескольких профильных мероприятиях. Приглашенный доклад руководителя гранта Карпулевича Е.А. «Подходы к анализу данных NGS секвенирования с использованием метода оценки качества идентификации генетических вариантов по данным трио» сделан на Научно-практической конференции с международным участием «Генетика 2025» (5 – 7 ноября 2025 г.) [3]. Стендовый доклад исполнителя гранта Гугучкина Е.П. «Модификация линейного индекса инструмента выравнивания minimap2 с учетом известных генетических вариантов» представлен на 12-й Московской конференции по вычислительной молекулярной биологии (MCCMB 2025, 31 июля – 3 августа 2025 г.) [4]. Устный доклад «Применение современных информационных технологий для решения задач анализа биомедицинских данных с использованием методов искусственного интеллекта» представлен на конгрессе «Оргздрав 2025» (9 – 10 июня 2025 г.) [5], где обсуждалось применение конвейера в задачах персонализированной медицины и здравоохранения. Планируется дальнейшая перенастройка и дообучение моделей DeepVariant на данных, полученных с использованием расширенного референса, адаптация конвейера под разные популяции и протоколы секвенирования, а также интеграция конвейера в практические пайплайны анализа геномных данных в медицинских и исследовательских организациях. Статьи: [1] https://www.ispras.ru/proceedings/docs/2025/37/6-2/isp_37_2025_6_211.pdf [2] https://www.mdpi.com/1999-4893/18/10/610 Конференции: [3] https://vavilovgenetics.org/ [4] https://www.mccmb.info/posters-2025 [5] https://congress.orgzdrav.com/orgzdrav/program

 

Публикации

1. Никита Колтунов, Егор Гугучкин, Олег Самоваров, Людмила Михайлова и Евгений Карпулевич A Method for Calculating Whole-Genome Sequencing Outcomes from Trio Data MDPI Algorithms, Koltunov, N.; Guguchkin, E.; Samovarov, O.; Mikhailova, L.; Karpulevich, E. A Method for Calculating Whole-Genome Sequencing Outcomes from Trio Data. Algorithms 2025, 18, 610. https://doi.org/10.3390/a18100610 (год публикации - 2025)
10.3390/a18100610

2. Колтунов Н.А., Гугучкин Е.П., Карпулевич Е.А. Оптимизация выравнивания коротких прочтений с инделями при полногеномном секвенировании Труды ИСП РАН, Колтунов Н.А., Гугучкин Е.П., Карпулевич Е.А. Оптимизация выравнивания коротких прочтений с инделями при полногеномном секвенировании. Труды Института системного программирования РАН, том 37, вып. 6, часть 2, 2025, стр. 211-222. DOI: 10.15514/ISPRAS-2025-37(6)-30. (год публикации - 2025)
10.15514/ISPRAS-2025-37(6)-30