КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ
Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.
ОБЩИЕ СВЕДЕНИЯ
Номер проекта 22-73-10053
НазваниеРазработка методов искусственного интеллекта для комплексного хромато-масс-спектрометрического анализа и оценки экологической опасности сложных смесей и их применение к продуктам трансформации несимметричного диметилгидразина
Руководитель Шолохова Анастасия Юрьевна, Кандидат химических наук
Организация финансирования, регион федеральное государственное бюджетное учреждение науки Институт физической химии и электрохимии им. А. Н. Фрумкина Российской академии наук , г Москва
Конкурс №71 - Конкурс 2022 года «Проведение исследований научными группами под руководством молодых ученых» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными
Область знания, основной код классификатора 03 - Химия и науки о материалах; 03-705 - Хемоинформатика
Ключевые слова нецелевой анализ, хроматография, хемоинформатика, машинное обучение, глубокое обучение, газовая хроматография, двумерная газовая хроматография, масс-спектрометрия, индексы удерживания, токсичность, физическая химия, физико-химические свойства
Код ГРНТИ31.15.00 31.15.35 31.19.29
ИНФОРМАЦИЯ ИЗ ЗАЯВКИ
Аннотация
Фундаментальной проблемой химии является нецелевой анализ сложных смесей низкомолекулярных органических соединений, то есть установление структуры компонентов смеси, как ранее описанных, так и полностью неизвестных. Одним из основных методов, используемых при таком анализе является газовая хромато-масс-спектрометрия. Этот метод не позволяет совершенно точно подтвердить структуру неизвестного аналита без использования стандартных образцов, однако позволяет быстро получить значительное количество информации о составе смеси. В последние годы активно разрабатываются методы интерпретации хромато-масс-спектрометрических данных для предварительного нецелевого анализа с применением машинного и глубокого обучения. Большая часть таких работ посвящена метаболомному анализу. В то же время для анализа объектов техногенного происхождения, таких как промышленные смеси, жидкие химические отходы, применение подобных методов разработано в меньшей степени, несмотря на то что нецелевой анализ подобных смесей, выявление потенциально токсичных и опасных соединений, имеет большое практическое значение. Данный проект будет посвящён применению методов физической химии, хемоинформатики, машинного обучения к анализу продуктов трансформации промывных вод, содержащих несимметричный диметилгидразин (НДМГ), подвергнутых длительному неконтролируемому хранению. Идентификация продуктов трансформации является актуальной с точки зрения экологии и при контроле безопасности при хранении и переработке отходов. Работы, производимые в рамках данного проекта, будут решать следующие задачи. Подбор оптимальных условий хроматографического разделения продуктов продуктов длительного хранения НДМГ. Для этого в вариантах газовой и двумерной газовой хроматографии будут подобраны неподвижные фазы селективные к определяемым компонентам. Разработка методов предсказания индексов и времен удерживания для рассматриваемых неподвижных фаз с помощью методов машинного обучения и глубокого обучения, выбор наиболее подходящих методов предсказания масс-спектров по структуре кандидата и предсказания наличия тех или фрагментов в структуре аналита по его масс-спектру. Совершенствование методов поиска по списку кандидатов (предсказанные спектры и наличие фрагментов) для предварительной идентификации по масс-спектру, составление списка кандидатов, в том числе с использованием машинного обучения для предсказания реакций.
Будет разработан комплексный метод поиска пары масс-спектр — информация об хроматографическом удерживании по списку кандидатов (для которых предсказаны масс-спектры). При этом будет использован имеющийся у коллектива задел, а также имеющиеся технологии для метаболомного анализа. Кроме того, будет проделана работа по составлению списка возможных кандидатов для продуктов трансформации НДМГ. При этом будет использованы как литературные данные, так и методы глубокого обучения, в том числе для предсказания путей превращений. Впервые при подобном поиске по списку кандидатов будут использованы времена удерживания для двух колонок.
Будет разработан метод, позволяющий предсказывать свойства неизвестного соединения по его структуре (предварительно расшифрованной исходя из масс-спектральных и хроматографических данных) или же напрямую по его масс-спектру. В частности, для продуктов трансформации НДМГ, будет выполнено предсказание токсичности обнаруженных продуктов трансформации, а также предсказание способности их к биоконцентрированию и биоразложению. Предсказание свойств неизвестных продуктов трансформации НДМГ напрямую на основе масс-спектральных данных без предварительной расшифровки структуры будет выполняться двумя способами, будет выполнено сравнение этих подходов и выбор оптимального. Предсказание свойств на основе непосредственно масс-спектров имеет особое значение, поскольку, позволяет получать ценную информацию без точного построения структуры. На данный момент такие методы существуют (разработаны в последние несколько лет) только для метаболитов и предсказания биоактивности. В рамках данного проекта такие подходы будут впервые применены к экологически опасным промышленным отходам.
При выполнении данного проекта будут получены результаты, опережающие ведущие мировые разработки в данной области. Решение поставленной фундаментальной задачи позволит создать новый подход к идентификации соединений, в том числе с неизвестной ранее структурой, сочетанием экспериментальных данных и расчетных методов для предсказания величин хроматографического удерживания и различных физико-химических свойств неизвестных ранее соединений с использованием «умных алгоритмов».
ОТЧЁТНЫЕ МАТЕРИАЛЫ
Публикации
1.
Самохин А.С., Матюшин Д.Д.
How searching against multiple libraries can lead to biased results in GC/MS-based metabolomics
Rapid Communications in Mass Spectrometry, 2023 Feb 15, Volume 37, issue 3, e9437 (год публикации - 2023)
10.1002/rcm.9437
2.
Шолохова А.Ю., Матюшин Д.Д., Гриневич О.И., Боровикова С.А., Буряк А.К.
Intelligent Workflow and Software for Non-Target Analysis of Complex Samples Using a Mixture of Toxic Transformation Products of Unsymmetrical Dimethylhydrazine as an Example
Molecules, Molecules, Vol. 28(8), 3409 (год публикации - 2023)
10.3390/molecules28083409
3. Матюшин Д.Д., Шолохова А.Ю. Extraction of information about the molecule structure directly from GC-MS data Сорбционные и хроматографические процессы (год публикации - 2023)
4.
Хрисанфов М.Д., Матюшин Д.Д., Самохин А.С.
A general procedure for finding potentially erroneous entries in the database of retention indices
Analytica Chimica Acta, Volume 1297, 342375 (год публикации - 2024)
10.1016/j.aca.2024.342375
5. Матюшин Д.Д., Шолохова А.Ю., Хрисанфов М.Д., Боровикова С.А. ПРИМЕНЕНИЕ МОЛЕКУЛЯРНОГО ПОДОБИЯ ДЛЯ ОЦЕНКИ ТОЧНОСТИ ПРЕДСКАЗАНИЯ ГАЗОХРОМАТОГРАФИЧЕСКИХ ИНДЕКСОВ УДЕРЖИВАНИЯ С ПОМОЩЬЮ ГЛУБОКОГО ОБУЧЕНИЯ Журнал физической химии (год публикации - 2024)
6. Гриневич О.И., Шолохова А.Ю., Матюшин Д.Д. Особенности удерживания азотсодержащих гетероциклических соединений в режимах обращенно-фазовой и гидрофильной ВЭЖХ-МС Сорбционные и хроматографические процессы (год публикации - 2024)
7.
Карнаева А.Е., Шолохова А.Ю.
Validation of the identification reliability of known and assumed UDMH transformation products using gas chromatographic retention indices and machine learning
Chemosphere, Karnaeva A. E., Sholokhova A. Y. Validation of the identification reliability of known and assumed UDMH transformation products using gas chromatographic retention indices and machine learning //Chemosphere. – 2024. – Т. 362. – С. 142679. (год публикации - 2024)
10.1016/j.chemosphere.2024.142679
8.
Шолохова А.Ю., Матюшин Д.Д., Шашков М.Д.
Quantitative structure-retention relationships for pyridinium-based ionic liquids used as gas chromatographic stationary phases: convenient software and assessment of reliability of the results
Journal of Chromatography A, Sholokhova A. Y., Matyushin D. D., Shashkov M. V. Quantitative structure-retention relationships for pyridinium-based ionic liquids used as gas chromatographic stationary phases: Convenient software and assessment of reliability of the results //Journal of Chromatography A. – 2024. – Т. 1730. – С. 465144. (год публикации - 2024)
10.1016/j.chroma.2024.465144
9.
Матюшин Д.Д., Буров И.А., Шолохова А.Ю.
Uncertainty Quantification and Flagging of Unreliable Predictions in Predicting Mass Spectrometry-Related Properties of Small Molecules Using Machine Learning
International Journal of Molecular Sciences, Int. J. Mol. Sci. 2024, 25(23), 13077 (год публикации - 2024)
10.3390/ijms252313077
10. Гриневич О.И., Байгильдиев Т.М. Влияние муравьиной кислоты как модификатора подвижной фазы на удерживание маркеров мертвого времени в обращенно-фазовой высокоэффективной жидкостной хроматографии Заводская лаборатория. Диагностика материалов (год публикации - 2025)
11. Матюшин Д.Д., Шолохова А.Ю. Сравнение различных подходов к прогнозированию газохроматографических индексов удерживания ароматических и гетероциклических соединений Журнал физической химии (год публикации - 2025)
Публикации
1.
Самохин А.С., Матюшин Д.Д.
How searching against multiple libraries can lead to biased results in GC/MS-based metabolomics
Rapid Communications in Mass Spectrometry, 2023 Feb 15, Volume 37, issue 3, e9437 (год публикации - 2023)
10.1002/rcm.9437
2.
Шолохова А.Ю., Матюшин Д.Д., Гриневич О.И., Боровикова С.А., Буряк А.К.
Intelligent Workflow and Software for Non-Target Analysis of Complex Samples Using a Mixture of Toxic Transformation Products of Unsymmetrical Dimethylhydrazine as an Example
Molecules, Molecules, Vol. 28(8), 3409 (год публикации - 2023)
10.3390/molecules28083409
3. Матюшин Д.Д., Шолохова А.Ю. Extraction of information about the molecule structure directly from GC-MS data Сорбционные и хроматографические процессы (год публикации - 2023)
4.
Хрисанфов М.Д., Матюшин Д.Д., Самохин А.С.
A general procedure for finding potentially erroneous entries in the database of retention indices
Analytica Chimica Acta, Volume 1297, 342375 (год публикации - 2024)
10.1016/j.aca.2024.342375
5. Матюшин Д.Д., Шолохова А.Ю., Хрисанфов М.Д., Боровикова С.А. ПРИМЕНЕНИЕ МОЛЕКУЛЯРНОГО ПОДОБИЯ ДЛЯ ОЦЕНКИ ТОЧНОСТИ ПРЕДСКАЗАНИЯ ГАЗОХРОМАТОГРАФИЧЕСКИХ ИНДЕКСОВ УДЕРЖИВАНИЯ С ПОМОЩЬЮ ГЛУБОКОГО ОБУЧЕНИЯ Журнал физической химии (год публикации - 2024)
6. Гриневич О.И., Шолохова А.Ю., Матюшин Д.Д. Особенности удерживания азотсодержащих гетероциклических соединений в режимах обращенно-фазовой и гидрофильной ВЭЖХ-МС Сорбционные и хроматографические процессы (год публикации - 2024)
7.
Карнаева А.Е., Шолохова А.Ю.
Validation of the identification reliability of known and assumed UDMH transformation products using gas chromatographic retention indices and machine learning
Chemosphere, Karnaeva A. E., Sholokhova A. Y. Validation of the identification reliability of known and assumed UDMH transformation products using gas chromatographic retention indices and machine learning //Chemosphere. – 2024. – Т. 362. – С. 142679. (год публикации - 2024)
10.1016/j.chemosphere.2024.142679
8.
Шолохова А.Ю., Матюшин Д.Д., Шашков М.Д.
Quantitative structure-retention relationships for pyridinium-based ionic liquids used as gas chromatographic stationary phases: convenient software and assessment of reliability of the results
Journal of Chromatography A, Sholokhova A. Y., Matyushin D. D., Shashkov M. V. Quantitative structure-retention relationships for pyridinium-based ionic liquids used as gas chromatographic stationary phases: Convenient software and assessment of reliability of the results //Journal of Chromatography A. – 2024. – Т. 1730. – С. 465144. (год публикации - 2024)
10.1016/j.chroma.2024.465144
9.
Матюшин Д.Д., Буров И.А., Шолохова А.Ю.
Uncertainty Quantification and Flagging of Unreliable Predictions in Predicting Mass Spectrometry-Related Properties of Small Molecules Using Machine Learning
International Journal of Molecular Sciences, Int. J. Mol. Sci. 2024, 25(23), 13077 (год публикации - 2024)
10.3390/ijms252313077
10. Гриневич О.И., Байгильдиев Т.М. Влияние муравьиной кислоты как модификатора подвижной фазы на удерживание маркеров мертвого времени в обращенно-фазовой высокоэффективной жидкостной хроматографии Заводская лаборатория. Диагностика материалов (год публикации - 2025)
11. Матюшин Д.Д., Шолохова А.Ю. Сравнение различных подходов к прогнозированию газохроматографических индексов удерживания ароматических и гетероциклических соединений Журнал физической химии (год публикации - 2025)
Аннотация результатов, полученных в 2025 году
В течение третьего года реализации проекта выполнялся анализ реальных объектов, содержащих продукты трансформации несимметричного диметилгидразина (НДМГ). При этом использовался алгоритм, разработанный на протяжении прошлых лет выполнения проекта, основанный на сочетании нескольких методов хромато-масс-спектрометрии и машинного обучения. Кроме того, использовались и стандартные образцы в тех случаях, когда они коммерчески доступны. Это позволило подтвердить надежность ранее разработанного алгоритма и однозначно определить структуру ряда продуктов трансформации НДМГ. Выполнялся анализ смеси, образовавшейся при взаимодействии раствора НДМГ и пероксида водорода, содержащей множество продуктов трансформации НДМГ. Установлены структуры 16 соединений, из них 8 структур подтверждены с помощью коммерчески доступных стандартных образцов. Также выполнялся анализ образца смыва с поверхности, содержащей продукты неполного сгорания НДМГ. Было обнаружено более 50 азотсодержащих соединений, установлены структуры 25 из них. В целом показано, что разработанный подход позволяет определять структуру продуктов трансформации НДМГ с достаточно высокой степенью надежности, даже без применения стандартных образцов.
Продолжались работы по предсказанию газохроматографических индексов удерживания. Было выполнено сравнение различных подходов к этой задаче, применительно к продуктам трансформации НДМГ и аналогичным молекулам (низкомолекулярные соединения, в основном ароматические и с большим числом атомов азота). Наилучшую точность удается достигнуть с помощью узкоспециализированных моделей, представляющих собой линейные уравнения, содержащие в основном топологические молекулярные дескрипторы. Не слишком высокая точность ряда ранее опубликованных нейросетевых моделей обусловлена, в том числе, ошибками в базе данных NIST. Из универсальных моделей для предсказания индексов удерживания наиболее высокой точностью обладает модель AIRI, однако и она существенно отстает от точности, которую можно достичь (кросс-валидация, молекулы для которых определяется точность не использовались при построении модели) с помощью узкоспециализированных линейных моделей. В то же время область применимости таких моделей ограничена и не вполне четко определена.
Ранее нами был предложен подход, при котором для предсказании индексов удерживания для нестандартных неподвижных фаз строились линейные уравнения структура-удерживание, включающие в себя индексы удерживания, предсказанные с помощью нейронных сетей для стандартных неподвижных фаз. Эти индексы удерживания использовались фактически в качестве молекулярных дескрипторов. В этом году такой подход был распространен и на жидкостную хроматографию. В качестве молекулярных дескрипторов использовались времена удерживания в жидкостной хроматографии (предсказанные для одних конкретных условий), а также различные их степени. Показано, что точность такого подхода соизмерима с точностью, достижимой при трансферном обучении.
Оценена возможность применения методов вычислительной химии для непосредственной оценки энергии взаимодействия молекулы и неподвижной фазы. Это позволило бы избавиться от зависимости от наличия и качества референсных данных при предсказании индексов удерживания. К сожалению, было показано, что точность оценки потенциальной энергии межмолекулярного взаимодействия недостаточно высока.
Среди прочих публикаций, опубликована в открытом доступе статья, посвященная оценке надежности предсказания индексов удерживания с помощью машинного обучения с использованием трех критериев: наличие в обучающем наборе молекул, близких к тем, для которых выполняется предсказание; разброс предсказаний нескольких моделей между собой; принадлежность молекулы к опредеденному кластеру. Статья доступна онлайн:
https://www.mdpi.com/1422-0067/25/23/13077
Продолжены работы по обнаружению ошибок в химических базах данных с помощью машинного обучения. Используется 5 моделей машинного обучения, обученных независимо. Если для какой-то молекулы все 5 моделей дают существенно ошибочное предсказание (молекула не входила в обучающие наборы), то, скорее всего, соответствующая запись ошибочная.
Разработаны и опубликованы онлайн новые версии программного обеспечения CHERESHNYA и SVEKLA. В программу CHERESHNYA добавлены молекулярные дескрипторы для предсказания времен удерживания в жидкостной хроматографии, а также исправлены ошибки. В программу SVEKLA добавлена возможность предсказывать «молекулярные отпечатки пальцев» напрямую из масс-спектра, автоматически генерировать список кандидатов исходя из брутто-формулы и другие возможности. Данное программное обеспечение доступно онлайн:
https://github.com/mtshn/svekla
https://github.com/mtshn/chereshnya
Публикации
1.
Самохин А.С., Матюшин Д.Д.
How searching against multiple libraries can lead to biased results in GC/MS-based metabolomics
Rapid Communications in Mass Spectrometry, 2023 Feb 15, Volume 37, issue 3, e9437 (год публикации - 2023)
10.1002/rcm.9437
2.
Шолохова А.Ю., Матюшин Д.Д., Гриневич О.И., Боровикова С.А., Буряк А.К.
Intelligent Workflow and Software for Non-Target Analysis of Complex Samples Using a Mixture of Toxic Transformation Products of Unsymmetrical Dimethylhydrazine as an Example
Molecules, Molecules, Vol. 28(8), 3409 (год публикации - 2023)
10.3390/molecules28083409
3. Матюшин Д.Д., Шолохова А.Ю. Extraction of information about the molecule structure directly from GC-MS data Сорбционные и хроматографические процессы (год публикации - 2023)
4.
Хрисанфов М.Д., Матюшин Д.Д., Самохин А.С.
A general procedure for finding potentially erroneous entries in the database of retention indices
Analytica Chimica Acta, Volume 1297, 342375 (год публикации - 2024)
10.1016/j.aca.2024.342375
5. Матюшин Д.Д., Шолохова А.Ю., Хрисанфов М.Д., Боровикова С.А. ПРИМЕНЕНИЕ МОЛЕКУЛЯРНОГО ПОДОБИЯ ДЛЯ ОЦЕНКИ ТОЧНОСТИ ПРЕДСКАЗАНИЯ ГАЗОХРОМАТОГРАФИЧЕСКИХ ИНДЕКСОВ УДЕРЖИВАНИЯ С ПОМОЩЬЮ ГЛУБОКОГО ОБУЧЕНИЯ Журнал физической химии (год публикации - 2024)
6. Гриневич О.И., Шолохова А.Ю., Матюшин Д.Д. Особенности удерживания азотсодержащих гетероциклических соединений в режимах обращенно-фазовой и гидрофильной ВЭЖХ-МС Сорбционные и хроматографические процессы (год публикации - 2024)
7.
Карнаева А.Е., Шолохова А.Ю.
Validation of the identification reliability of known and assumed UDMH transformation products using gas chromatographic retention indices and machine learning
Chemosphere, Karnaeva A. E., Sholokhova A. Y. Validation of the identification reliability of known and assumed UDMH transformation products using gas chromatographic retention indices and machine learning //Chemosphere. – 2024. – Т. 362. – С. 142679. (год публикации - 2024)
10.1016/j.chemosphere.2024.142679
8.
Шолохова А.Ю., Матюшин Д.Д., Шашков М.Д.
Quantitative structure-retention relationships for pyridinium-based ionic liquids used as gas chromatographic stationary phases: convenient software and assessment of reliability of the results
Journal of Chromatography A, Sholokhova A. Y., Matyushin D. D., Shashkov M. V. Quantitative structure-retention relationships for pyridinium-based ionic liquids used as gas chromatographic stationary phases: Convenient software and assessment of reliability of the results //Journal of Chromatography A. – 2024. – Т. 1730. – С. 465144. (год публикации - 2024)
10.1016/j.chroma.2024.465144
9.
Матюшин Д.Д., Буров И.А., Шолохова А.Ю.
Uncertainty Quantification and Flagging of Unreliable Predictions in Predicting Mass Spectrometry-Related Properties of Small Molecules Using Machine Learning
International Journal of Molecular Sciences, Int. J. Mol. Sci. 2024, 25(23), 13077 (год публикации - 2024)
10.3390/ijms252313077
10. Гриневич О.И., Байгильдиев Т.М. Влияние муравьиной кислоты как модификатора подвижной фазы на удерживание маркеров мертвого времени в обращенно-фазовой высокоэффективной жидкостной хроматографии Заводская лаборатория. Диагностика материалов (год публикации - 2025)
11. Матюшин Д.Д., Шолохова А.Ю. Сравнение различных подходов к прогнозированию газохроматографических индексов удерживания ароматических и гетероциклических соединений Журнал физической химии (год публикации - 2025)
Возможность практического использования результатов
Разработанный в рамках данного проекта алгоритм нецелевого хромато-масс-спектрометрического анализа и программное обеспечение могут привести к существенному повышению качества услуг по анализу объектов окружающей среды. Разработанное нами программное обеспечение позволит проводить быстро и качественно проводить нецелевой скрининг и идентифицировать новые соединения, в том числе отсутствующие в базах данных. Такие методы могут быть внедрены в криминалистике, в промышленности и при мониторинге окружающей среды. Важной областью применения данных методов, имеющей прямое к социальной сфере, является анализ загрязнений в ситуации техногенных катастроф. На данный момент ведется скрининг ограниченного числа компонентов, но этого зачастую недостаточно, так как загрязнители могут образовывать продукты трансформации при попадании в окружающую среду не менее опасные, чем исходные соединения, но существенно менее изученные. Таким образом, полученные результаты могут быть в социальной сфере и способствовать обеспечению здоровья населения и устойчивого социального развития Российской Федерации.