КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ
Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.
ОБЩИЕ СВЕДЕНИЯ
Номер проекта 22-73-00104
НазваниеCовременные методы кластеризации и визуализации для анализа баз данных кристаллических структур
Руководитель Дмитриенко Артем Олегович, Кандидат химических наук
Организация финансирования, регион Федеральное государственное бюджетное образовательное учреждение высшего образования «Московский государственный университет имени M.В.Ломоносова» , г Москва
Конкурс №70 - Конкурс 2022 года «Проведение инициативных исследований молодыми учеными» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными
Область знания, основной код классификатора 03 - Химия и науки о материалах; 03-502 - Кристаллохимия
Ключевые слова инжeнерия кристаллов, анализ баз кристаллографических данных, структурные дескрипторы, машинное обучение
Код ГРНТИ31.15.17
ИНФОРМАЦИЯ ИЗ ЗАЯВКИ
Аннотация
В последние годы происходит настоящая революция в обработке и анализе данных. Наука о данных вышла далеко за пределы задач статистики и вычислительной математики и так или иначе используется в большинстве прикладных областей. К сожалению, современные методы машинного обучения без учителя — кластеризации, понижения размерности и визуализации данных — пока не нашли столь широкого применения в химических науках и кристаллографии.
Изучение сходств и различий позволяет анализировать конформационную предпочтительность молекул и типы атомных кластеров, межмолекулярные ассоциаты (особенности супрамолекулярной организации и закономерности упаковки), структуры как целое. Подобные исследования не только дополнят наши знания о строении молекул и атомных кластеров в конденсированном состоянии, но и позволят изучить возможности замены функциональных групп с сохранением упаковки. Знание списков взаимозаменяемых групп и соответствующих вероятностей сохранения структурного мотива может позволить более эффективно создавать ряды структур, отличающиеся заданными свойствами. Изучение общих закономерностей молекулярного строения и упаковки, равно как создание и предоставление в общий доступ инструментов для их решения, является актуальной задачей современной структурной химии и смежных дисциплин — инженерии кристаллов, исследований полиморфизма.
Во многих методах обучения без учителя есть общая схема, включающая :
• вычисление (всех или некоторых) обобщённых расстояний (мера сходства объектов) между изучаемыми объектами с помощью подходящей метрики
• анализ полученных расстояний без учёта любых других свойств объектов.
Рассматриваемые задачи будут включать:
1) визуализацию наборов любых молекулярных и супрамолекулярных фрагментов при использовании среднеквадратичных отклонений лучшего наложения (root mean square difference, RMSD) и алгоритмов нелинейных методов понижения размерности — t-distributed stochastic neighbor embedding (t-SNE).
2) сопоставление элементарных ячеек экспериментальных структур при использовании в качестве расстояния — RMSD векторов трансляций.
3) сравнение экспериментальных структур как целого, расстояния — расхождения между симулированными дифрактограммами и другие «отпечатки пальцев» (structure fingerprints).
Научная новизна работы заключается в предлагаемой методологии. Как показывает анализ литературы, подобное сочетание методов ранее не применялось для решения обозначенной научной проблемы – изучение общих закономерностей молекулярного строения и упаковки и поиск корреляций структура-свойства. В литературе существует всего несколько успешных примеров кластерного анализа, основанного на расчете и анализе матриц расстояний для конформеров. Для супрамолекулярных ассоциатов, координационных полиэдров и кристаллических структур как целого таких примеров нет.
ОТЧЁТНЫЕ МАТЕРИАЛЫ
Публикации
1. Использование современных методов кластерного анализа для изучения координационного окружения лантанидов Использование современных методов кластерного анализа для изучения координационного окружения лантанидов Известия Академии Наук. Серия химическая (год публикации - 2023)
Публикации
1. Использование современных методов кластерного анализа для изучения координационного окружения лантанидов Использование современных методов кластерного анализа для изучения координационного окружения лантанидов Известия Академии Наук. Серия химическая (год публикации - 2023)