Создание общей карты модификаций белков ассоциированных с нейродегенеративными заболеваниями

КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

ОБЩИЕ СВЕДЕНИЯ

Номер проекта 23-45-00012

НазваниеСоздание общей карты модификаций белков ассоциированных с нейродегенеративными заболеваниями

Руководитель Горшков Михаил Владимирович, Кандидат физико-математических наук

Организация финансирования, регион Федеральное государственное бюджетное учреждение науки Федеральный исследовательский центр химической физики им. Н.Н. Семенова Российской академии наук , г Москва

Конкурс №74 - Конкурс 2022 года «Проведение фундаментальных научных исследований и поисковых научных исследований международными научными коллективами» (NSFC)

Область знания, основной код классификатора 05 - Фундаментальные исследования для медицины; 05-401 - Молекулярная и клеточная медицина

Ключевые слова протеомика, болезнь Альцгеймера, белки, посттрансляционные модификации, РНК редактирование, сплайсинг, базы данных, поисковая протеомная машина

Код ГРНТИ76.03.31

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ

Аннотация
Посттрансляционные модификации (PTM) и одноаминокислотные полиморфизмы (SAAP) регулируют функции белков и являются основным механизмом формирования молекулярного облика клеточных протеомов, включая и фенотип различных заболеваний человека. Еще одним важным механизмом клеточного развития, ответственным за разнообразие протеомов и регулирования внутриклеточных процессов, связанных с развитием заболеваний, являются альтернативный сплайсинг (AS) и редактирование РНК. Составление молекулярной карты таких модификаций на уровне полного протеома клеток, особенно тех из них, которые имеют отношение к тем или иным заболеваниям, даст возможность исследовать весь спектр функциональных вариаций белков, выяснять молекулярные механизмы, лежащие в основе патогенеза, и разрабатывать персонализированные терапевтические подходы к лечению. На пути составления таких карт существует ряд нерешенных фундаментальных и технических проблем: существующие алгоритмы поиска модификаций дают слишком много ложно-положительных идентификаций, что не позволяет составлять списки соответствующих белков с достаточным уровнем достоверности; алгоритмы, используемые для осуществления такого поиска обладают многими ограничениями, которые могут приводить к ошибочным результатам и выводам, например, не учитывая посттранскрипционные изменения последовательностей белков; поиск модификаций, для их надежного ассоциирования с заболеваниями, должен осуществляться для статистически значимого количества образцов, полученных для больших групп пациентов, что, в свою очередь диктует необходимость разработки высокопроизводительных алгоритмов поиска и использования вычислительных мощностей высокой пропускной способности для завершения таких поисков в разумные сроки. Основной задачей данного проекта, предложенного научными коллективами из Университета Чжэнчжоу и Института энергетических проблем химической физики им. В.Л. Тальрозе, является создание первой полнопротеомной карты модификаций аминокислотных последовательностей белков, ассоциированных с болезнью Альцгеймера (БА). Научный коллектив из КНР работает в одном из самых больших медицинских учреждений страны. Коллектив специализируется на клинической протеомике и поиске модификаций белков, а также наработал в последние годы одну из крупнейших коллекций полнопротеомных данных, относящихся к нейродегенеративным заболеваниям, включая болезнь Альцгеймера. Масштаб этих данных, а также экспериментальные и вычислительные ресурсы, доступные коллективу, позволяют в рамках проекта разработать биоинформатический конвейер для высокопроизводительного полнопротеомного поиска, проверки и каталогизации модифицированных последовательностей белков, характерных для исследуемого заболевания. Российский научный коллектив имеет опыт разработки биоинформатических протеомных ресурсов, реализующих алгоритмы машинного обучения для обработки больших массивов протеомных данных, поиска модифицированных остатков в последовательностях, проверки и анализа результатов поиска, а также разработки протеогеномных конвейеров для полнопротеомного поиска посттранскрипционных изменений в последовательностях белков. Для достижения основных целей проекта, научными коллективами запланировано решение следующих конкретных задач: (1) разработка алгоритмов полнопротеомного анализа разностей масс между кодирующими и обнаруженными в эксперименте аминокислотными остатками, использующих наборы комплементарных критериев их валидации, таких как изотопные распределения спектров пептидов в области больших масс, пропуски гидролиза белков, влияние модификаций соседних остатков в последовательностях и др.; (2) разработка алгоритмов кластеризации измеренных разностей масс пептидов в протеомах, полученных для больших выборок образцов; (3) разработка стратегий поиска для различения модификаций остатков в последовательностях in vivo и химических аддуктов in vitro, образуемых в процессе пробоподготовки; (4) создание карты модификаций белков, ассоциированных с БА; (5) проведение анализа сигнальных каскадов белок-белковых взаимодействий, активируемых дифференциально регулируемыми модифицированными белками, специфичными для БА, и (6) экспериментальная валидация найденных новых модификаций белков, ассоциированных с БА. В целом, коллективы из КНР и РФ представляют идеальное сочетаний экспертиз и предварительных наработок для достижения целей проекта и получения результатов, которые дадут исследователям в области биомедицины новые инструменты для понимания механизмов развития болезни Альцгеймера на уровне посттрансляционных и посттранскрипционных изменений последовательностей белков. Результаты проекта будут опубликованы в международных изданиях, предоставлены разработчикам протеомного программного обеспечения в виде ресурсов открытого кода, а также размещены в общедоступных депозитариях протеомных данных.

ОТЧЁТНЫЕ МАТЕРИАЛЫ

Публикации

1. Левицкий Л.И., Иванов М.В., Гончаров А.О., Ключникова А.А., Бубис Ю.А., Лобас А.А., Соловьева Е.М., Пятницкий, Овчинников Р.К., Кухарский М.С., Фарафонова Т.Е., Новикова С.Е., Згода В.Г., Тарасова И.А., Горшков М.В., Мошковский С.А. Massive Proteogenomic Reanalysis of Publicly Available Proteomic Datasets of Human Tissues in Search for Protein Recoding via Adenosine-to-Inosine RNA Editing Journal of Proteome Research, 22, 6, 1695–1711 (год публикации - 2023)
10.1021/acs.jproteome.2c00740

2. Иванов М.В., Копейкина А.С., Горшков М.В. Reanalysis of DIA data Demonstrates the Capabilities of MS/MS-Free Proteomics to Reveal New Biological Insights in Disease-Related Samples Journal of the American Society for Mass Spectrometry, 35(8), 1775-1785 (год публикации - 2024)
10.1021/jasms.4c00134

3. Емекеева Д.Д., Чен Ж., Янг Я., Янг Ж., Горшков М.В., Тарасова И.А. Mapping protein variants associated with Alzheimer disease by mass-spectrometry based de novo sequencing assisted strategy Journal of Alzheimer's Disease, 110 (1), 242-257 (год публикации - 2025)
10.1177/13872877251414414

4. Емекеева Д.Д., Кусаинова Т., Гарибова Л.А., Шелепчиков А.А., Кононихин А.С., Третьяков А.В., Лаврухина О.И., Николаев Е.Н., Горшков М.В., Тарасова И.А. Accelerated Proteomic Sample Preparation for Accurate Ultrafast Mass Spectrometry-Based Quantitative Analysis of Cell and Tissue Proteomes Biochemistry (Moscow), 90 (5), 607-621 (год публикации - 2025)
10.1134/S0006297925600930

5. Гарибова Л.А., Горшков М.В., Иванов М.В. On the question of correct use of replicates in quantitative label-free proteomics Analytical and Bioanalytical Chemistry, 417(21), 4765-4774 (год публикации - 2025)
10.1007/s00216-025-05992-z

6. Иванов М.В., Копейкина А.С., Казакова Е.М., Тарасова И.А., Сунь З., Постоенко В.И., Янг Ж., Горшков М.В. Modified Decision Tree with Custom Splitting Logic Improves Generalization across Multiple Brains' Proteomic Data Sets of Alzheimer's Disease Journal of Proteome Research, 24(3), 1053-1066 (год публикации - 2025)
10.1021/acs.jproteome.4c00677

7. Бражников М., Кусаинова Т., Копейкина А.С., Тарасова И.А. TMTCrunch: A Proteomic Atlas of Alternative Splicing for Predicting Splicing-Induced Implications in Aging and Alzheimer's Disease Journal of Proteome Research, 24(11), 5548-5563 (год публикации - 2025)
10.1021/acs.jproteome.5c00426

Аннотация результатов, полученных в 2024 году
Основной задачей данного проекта является создание полнопротеомной карты модификаций аминокислотных последовательностей белков, включая посттрансляционные модификации (ПТМ), одноаминокислотные замены, события альтернативного сплайсинга и РНК редактирования, ассоциированных с болезнью Альцгеймера (БА). В рамках решения этой задачи, научным коллективом разрабатываются биоинформатические программно-аналитические ресурсы и экспериментальные подходы для высокопроизводительного полнопротеомного поиска, проверки и каталогизации модифицированных последовательностей белков, характерных для данной патологии. Работа над проектом в 2024 г. велась по следующим основным направлениям: (1) разработка биоинформатических ресурсов и программных средств, а также осуществление поиска посттрансляционных модификаций, продуктов одноаминокислотных замен и событий альтернативного сплайсинга в экспериментальных данных консорциумных исследований БА; (2) аннотирование результатов поиска и создание карты модификаций, ассоциированных с БА, а также функциональный анализ модифицированных белков; и (3) реализация экспериментальной программы проекта, в рамках которой были осуществлены работы по созданию и оптимизации методики обогащения фосфорилированных пептидов протеолитических смесей и полнопротеомный анализ образцов мозга моделей неврологических заболеваний (Альцгеймер и Паркинсон) с целью подтверждения результатов анализа данных консорциумных исследований. Также, в рамках работ по проекту были разработаны и протестированы на экспериментальных данных исследований неврологических заболеваний методы поиска дифференциально экспрессированных белков, ассоциированных с патологией, основанные на анализе масс-спектров первого уровня МС1. В отчетный период 2024 года были получены следующие основные результаты в рамках этих направлений исследований: - осуществлен поиск посттрансляционных модификаций, событий альтернативного сплайсинга и продуктов одноаминокислотных замен в больших данных консорциумных исследований болезни Альцгеймера банка данных депозитария Synapse, а также, дополнительно, протеомных исследований Каролинского института и Университета Эмори; - созданы карты альтернативного сплайсинга и одноаминокислотных замен в последовательностях белков, ассоциированных с различной степенью развития патологии; - получены результаты сравнительного анализа карт посттрансляционных модификаций, включая их локализацию с использованием развиваемой научным коллективом проекта платформы AA_stat и осуществлено сравнение с результатами, полученными с использованием платформы OpenDelta, разработанной коллективом партнерского проекта из Университета Чжэнчжоу; - разработан новый подход к различению посттрансляционных модификаций in vivo от химических модификаций in vitro, специфичных для протеомного анализа, а также создана методика кросс-валидации ПТМ и одноаминокислотных замен с использованием моделей предсказания хроматографических времен удерживания идентифицированных пептидов и профилей соответствующих масс-спектров фрагментации, основанных на алгоритмах глубокого машинного обучения; - разработана и протестирована методика обогащения фосфорилирования в протеолитических смесях, полученных для протеомов моделей болезни Альцгеймера и Паркинсона, для которых также наработаны экспериментальные данные полнопротеомного хроматомасс-спектрометрического анализа с использованием информационно-независимого метода (DIA); - разработана методика выявления дифференциально регулируемых белков в данных экспрессионного протеомного анализа на основе информационно-независимого метода DIA с использованием масс-спектров первого уровня МС1 и созданного научным коллективом проекта поискового алгоритма DirectMS1Quant, которая была протестирована на массиве данных протеомных исследований множественной системной атрофии Копенгагенского университета и Суджоунского центра системной медицины. Результаты тестирования методики опубликованы научным коллективом в 2024 году. - разработаны новые программные ресурсы проекта, включая утилиты выявления мотивов аминокислотных последовательностей для посттрансляционных модификаций, программа TMTCrunch (https://codeberg.org/makc/tmtcrunch) для анализа протеомных данных, полученных в режиме мультиплексинга образцов меченных изобарными метками TMTplex с акцентом на идентификацию протеоформ белков, а также программа для визуализации профиля посттрансляционных модификаций белков и анализа конкуренции ПТМов различного типа за одну и ту же локализацию в белке. При работе над проектом в 2024 году были разработаны и поддерживались следующие программные средства и биоинформатические ресурсы, доступные в сети Интернет для исследователей в области протеомики и биоинформатики, включая: - https://github.com/SimpleNumber/aa_stat - биоинформатическая платфоррма открытого кода AA_stat для профилирования сдвигов масс, связанных с модификацией пептидов, идентификации и локализации ПТМ (версии 2.6 от 05.09.2024 и 2.6.1 от 19.11.2024); - https://github.com/levitsky/pyteomics - библиотека функций открытого кода для работы с протеомными данными. В отчетный период осуществлялась поддержка и обновления библиотеки, включающие возможности работы со сдвигами масс, получаемыми в результате открытого поиска модификаций пептидов, и их сопоставления с базой посттрансляционных модификаций Unimod (версии 4.7 от 05.02.2024, 4.7.2 от 26.04.2024). Результаты второго года реализации проекта опубликованы в издании первого квартиля, индексируемого международными наукометрическими системами Web of Science и Scopus, двух статьях посланных в печать, а также представлены в 12 презентациях на международных и российских конференциях, включая 2 приглашенных, 7 устных доклада и 3 стендовых докладов.

Публикации

Аннотация результатов, полученных в 2025 году
В соответствии с планом, работы над проектом в 2025 г. включали завершение анализа модифицированных белков, ассоциированных с болезнью Альцгеймера (БА), по трем группам модификаций: сплайс-протеоформ, посттрансляционные модификации и одноаминокислотные замены; составление карт модификаций и процессов, регулируемых развитием патологии; разработка и тестирование боинформатических подходов для валидации результатов анализа протеомных данных; а также анализ полученных экспериментальных данных, включая фосфопротеомику моделей нейродегенеративных заболеваний В рамках этих направлений были получены следующие основные результаты: - завершена разработка и тестирование платформы TMTCrunch (https://pypi.org/project/tmtcrunch/), позволяющей осуществлять глубокий количественный анализ протеоформ, возникающих в результате альтернативного сплайсинга (АС), в контексте нейродегенеративных заболеваний. Платформа обеспечивает мета-анализ больших объемов протеомных данных, полученных с использованием мультиплексинга образцов от больших когорт пациентов на основе мечения пептидов метками TMT и решает следующие задачи: (1) количественный анализ профилей идентифицированных белков для выявления дифференциально экспрессированных протеоформ между группами пациентов; (2) контроль надежности идентификации сплайс-регионов; и (3) функциональный прогноз изменений в белок-белковых взаимодействиях и функциональной активности белков в результате АС; - осуществлен анализ наборов протеомных данных консорциумных исследований БА, включающих 420 образцов тканей мозга (240 БА и 180 контролей), на основе которого был создан первый атлас сплайс-транслятомов БА, включающий 9047 канонических и 1505 неканонических протеоформ. Выявлены 18 неканонических протеоформ, значительно измененных при БА и вовлеченных в ключевые пути патогенеза, включая регуляцию цитоскелета, глутаматергическую передачу, сигнальные пути Rho GTPase и EGFR, а также регуляцию сплайсинга пре-мРНК; - осуществлен анализ данные протеомики и фосфопротеомики образцов мозга пациентов из исследования БА Университета Эмори (США), полученные с использованием мультиплексинга образцов на основе TMT мечения и выявлена функциональная связь между альтернативным сплайсингом, трансляцией и посттрансляционным процессингом сплайс-протеоформы, специфических для патологии. Составлеа карта субстратов фосфокиназ, уникальных для регионов сплайсинга и идентифицировано более 40 000 сайтов фосфорилирования, в том числе более 1000 для неканонических форм белков; - осуществлен анализа дифференциального фосфорилирования серинов и треонинов как для канониченских субстратов так и для изоформ и показано увеличение активности киназ DYRK1B и CDK12/14/17 в образцах пациентов с БА; - разработан новый метод поиска биомарокеров для больших наборов разнородных протеомных данных на основе алгоритмов искусственного интеллекта, с помощью которого проанализированы протеомные данные более 500 образцов тканей префронтальной коры пациентов с БА, бессимптомным БА, а также контрольной здоровой группы, для которых получены семь белков с паттернами экспрессии, уникальными для бессимптомных пациентов с БА, два из которых, серотрансферрин (TRFE) и нуклеаза репарации ДНК (APEX1) указывают на ферроптоз как на ключевой механизм развития данной патологии; - исследована активность аминоацил тРНК синтетаз на основе анализа больших протеомных данных в контексте БА, с использованием разработаной стратегия поиска одноаминокислотных замен, сочетающая de novo секвенирование пептидов и поиск в базах данных. Была выявлена доля событий, классифицируемых как ошибки аминоацилирования тРНК, которая составила 10% от всех идентифицированных замен, что указывает на значительный вклад ошибок трансляции, связанных непосредственно с функцией аминоацил-тРНК-синтетазы (aaRS), в протеомный ландшафт модификаций белков как при нормальном старении, так и при БА; - идентифицированы специфические паттерны одноаминокислотных замен, потенциально связанные с дисфункцией определенных aaRS и, в частности, обнаружено статистически значимое увеличение частоты замен гистидина (H) на глутамин (Q) в образцах БА по сравнению с контролем, что может свидетельствовать о нарушении функции гистидил-тРНК синтетазы (HARS1) при БА; - проведены экспериментальные исследования фосфорилирования протеоформ, ассоциированных с БА на основе фосфопротеомики моделей нейродегенеративных заболеваний, в частности образцов тканей мозга крыс с моделью Паркинсонизма, с использованием мультиплексингом образцов на основе TMT мечения, для которых были получены результаты анализа дифференциального фосфорилирования субстратов по сериновым, треониновым и тирозиновым остаткам; - с использованием разработанного инструмента OpenPtmFinder, осуществлен функциональный анализ посттрансляционных модификаций, идентифицированных для данных проекта консорциума AMP-AD, для которых наиболее распространенной оказалось фосфорилирование. Было подтверждено повышение уровня фосфорилирования MAPT по S579 в группах бессимптомного и симптоматического БА с прямой корреляцией со стадиями по шкале Braak. Также, был идентифицирован сайт фосфорилирования MAPT по T534, который однозначно разделял две экспериментальные группы БА, выступая перспективным стратификационным маркером. При работе над проектом в 2025 году были разработаны и поддерживались открыто доступные биоинформатические ресурсы, включая: - https://github.com/Anchovy-bio/OpenPtmFinder — утилита для комплексного анализа посттрансляционных модификаций в данных протеомики и ассоциированных с патологией; - https://github.com/PostoenkoVI/IQMMA - утилита для обнаружение пептидных кластеров в спектрах с помощью нескольких поисковых инструментов, сопоставления интенсивности пептидов и оценки изменений относительного количественного содержания белков; - https://pypi.org/project/tmtcrunch/ - поисковая платформа для анализа продуктов альтернативного сплайсинга в данных протеомики и фосфопротеомики, полученных с использованием меток TMT; - https://pypi.org/project/altsplicing/ - модуль Python для анализа альтернативного сплайсинга в протеомных и фосфопротеомных данных. В отчетный период опубликовано 5 статьях в изданиях первого квартиля, две статьи подготовлены в печать, а также представлено 10 презентаций на конференциях, включая 1 приглашенный, 6 устных доклада и 3 стендовых докладов.

Публикации

Возможность практического использования результатов
Результаты проекта позволят разработать новые высокоэффективные методы анализа разнородных данных глобальных консорциумных исследований нейродегенеративных заболеваний. На примере болезни Альцгеймера, являющейся одним из наиболее социально-значимым заболеванием, использование этих методов дало возможность выявить новые, возможно, ключевые процессы развития патологии, а также идентифицировать ее потенциальные прогностические маркеры на уровне клеточных протеомов, что приведет к ускорению разработки новых препаратов и персонализированных подходов к ее лечению. Это обеспечит экономический рост за счет развития фармацевтической отрасли и импортозамещения, а также улучшит социальное развитие благодаря повышению качества жизни быстро растущей доли населения в старших возрастных категориях и доступности медицинской помощи. Проект создал новые научные и технологические заделы в области вычислительной биологии в целом. Так, в частности, методика отбора маркеров патологии (в данном случае, не ограниченная нейродегенеративными заболеваниями) на основе алгоритмов искусственного интеллекта позволяет существенно ускорить стадию разработки лекарственных препаратов нового поколения для таргетной и персонализированной терапии различного рода заболеваний. Созданные при реализации проекта биоинформатические ресурсы, такие как библиотека протеомных функций pyteomics, программы локализации и анализа изменений последовательностей белков либо в результате посттрасляционных модификаций, либо драйверных для патологии мутаций и событий альтернативного сплайсинга AA-stat, OpenPTMFinder, TMTCrunch b Altsplicing являются новыми и совершенствуют существующие технологии анализа постгеномных данных, позволяя исследователям создавать программные средства, кастомизированные под конкретные задачи исследований. Все созданные при реализации проекта биоинформатические ресурсы предоставляются исследователям без ограничений использования.