КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

ОБЩИЕ СВЕДЕНИЯ

Номер 19-73-10137

НазваниеПрименение методов искусственного интеллекта к планированию синтеза химических веществ (iSynthesis)

РуководительМаджидов Тимур Исмаилович, Кандидат химических наук

Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Казанский (Приволжский) федеральный университет", Республика Татарстан (Татарстан)

Период выполнения при поддержке РНФ

07.2019 - 06.2022

Конкурс№41 - Конкурс 2019 года «Проведение исследований научными группами под руководством молодых ученых» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными.

Область знания, основной код классификатора 03 - Химия и науки о материалах, 03-705 - Хемоинформатика

Ключевые словадизайн синтеза, de novo дизайн, планирование синтеза, предсказание стратегии синтеза, предсказание условий проведения реакций, хемоинформатика, химические реакции, искусственный интеллект, машинное обучение

Код ГРНТИ31.01.77

СтатусУспешно завершен

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ

Аннотация
В разработке любого вещества, в особенности новых лекарственных препаратов, ключевая стадия заключается в проведении его синтеза. Вычислительные эксперименты и технологии современной медицинской химии, а также огромный массив информации, доступный в базах данных, предоставляют широчайшие возможности для рационального дизайна лекарств. Современные методы виртуального скрининга и de novo дизайна молекул, в том числе основанные на методах глубокого обучения, позволяют автоматически генерировать гипотетические структуры молекул, потенциально обладающих требуемым спектром биологической активности или иных полезных свойств. Вместе с тем, значительная часть теоретически сконструированных таким образом молекул не доходит до биологических испытаний вследствие проблем с их синтезом. Хотя задача планирования органического синтезе на компьютере была поставлена полвека назад, и для ее решения было предложено множество подходов, реализованных в большом количестве программ, однако в настоящее время множество реально используемых средств ограничено небольшим набором коммерчески доступных программ ретросинтетического анализа. При этом ни один из существующих инструментов не осуществляет предсказание условий проведения реакций, в лучшем случае предоставляются данные о типичных условиях. Кроме того, лежащий в их основе ретросинтетический анализ имеет два существенных недостатка. Во-первых, выявляемая в ходе ретросинтетического анализа стратегия синтеза всегда требует дополнительных уточнений, например, необходимость установки и снятия защитных групп не может быть в нем предусмотрена и отражена в плане синтеза. Во-вторых, этот подход рассматривает способ синтеза только целевого соединения. В то же время, синтез его аналога может оказаться более простым. В задачах медицинской химии, когда нужно синтезировать множество структурно схожих соединений в кратчайшие сроки, эта информация может оказаться исключительно полезной. Цель настоящего проекта заключается в создании методологии компьютерного планирования синтеза (iSynthesis), в рамках которой предлагается не только план синтеза, но также условия проведения реакций на всех его стадиях. Особенность предлагаемой технологии также заключается в использовании необычной стратегии построения схемы синтеза, которая будет основана на приближении от исходных реагентов к желаемому продукту синтеза. Такой подход, который редко использовался ранее из-за вычислительных сложностей, избавлен от указанных недостатков ретросинтетического анализа. Главным его достоинством является возможность поиска стратегий синтеза соединений, близких к целевому по структуре, благодаря оптимизации функции, зависящей от сходства продукта реакции с целевым соединением. Проблемы, связанные с вычислительной сложностью данного подхода, мы планируем решать с использованием эффективных эвристик, показавшего свою применимость в задачах подобного типа подхода Монте-Карло поиска по дереву, частичного перечисления продуктов первой трансформации в ходе подготовки базы данных, а также алгоритмов стохастического поиска. Ключевой особенностью данного проекта является разработка инструментов предсказания условий реакций, которые будут фигурировать в плане синтеза. В настоящее время задача предсказания оптимальных условий проведения реакций еще не решена, и имеются лишь единичные публикации в данной области. Решение проблемы предсказания оптимальных условий является центральной задачей данного проекта. Мы разработаем две методологии для решения этой проблемы. Первая методология основана на поиске условий, которые позволят оптимизировать кинетику реакции и при этом избежать проблем с селективностью. Для этого будут использоваться модели предсказания кинетических характеристик некоторых распространенных реакций. Эта методология позволит не только предсказать условия, но также оценить соотношение продуктов, выход и время проведения реакции. Вместе с тем, кинетические данные имеются лишь для ограниченного числа типов реакций, и поэтому этот подход не является универсальным. Вторая стратегия основана на прямом предсказании с помощью моделей, построенных на больших выборках данных, содержащих информацию об условиях проведения реакций. В последнем случае возможные условия (катализатор, диапазон температур и давлений) будут ранжированы по их применимости к данной реакции. Для построения моделей будут использоваться, в том числе, современные метода машинного обучения, включая методы глубокого обучения. Эта методология является более универсальной, но получаемые с ее помощью модели менее информативны и интерпретируемы. Для построения моделей будут использоваться имеющиеся в лаборатории данные по кинетическим характеристикам и условиям проведения реакций, а также будут собраны кинетические характеристики для новых типов реакций (присоединение, замещение в ароматическом ядре). Также будут собраны данные по условиям проведения других типов реакций, для которых кинетические характеристики неизвестны. Разработанные инструменты, а также наборы данных, будут открыты для использования широкой общественностью, в том числе посредством веб-сервисов. Преимуществом проекта является экспериментальная валидация создаваемых подходов. Разработанная технология будет применена в проекте по разработке стратегии синтеза новых типов антидепрессантов. В научно-образовательном центре фармацевтики КФУ неоднократно осуществлялись попытки синтеза аналогов антидепресантов доксепина и досулепина, в которых одно из бензольных колец заменено на фрагмент пиридоксина. Однако попытка его синтеза классическими подходами увенчалась неудачей. Разработанная технология iSynthesis будет апробирована на данном примере, с ее использованием будут предложены альтернативные стратегии синтеза, которые затем будут апробированы и использованы в группе медицинской химии НОЦ Фармацевика КФУ. Будут также валидированы методы предсказания условий реакций гидрирования. Разработка инструментов, позволяющих осуществлять планирование синтеза с учетом условий проведения реакций, позволит существенно продвинуться в создании полностью автоматизированных систем синтеза.

Ожидаемые результаты
Данный проект направлен на развитие методологии компьютерного планирования синтеза химических веществ. Она позволяет решать две ключевые проблемы, стоящие перед синтетическими или медицинскими химиками: (1) выявление последовательности химических реакций, приводящих к получению требуемого соединения или его аналога (стратегии синтеза), (2) определение условий проведения каждой реакции. Когда разработка соединения становится слишком затратной процедурой, необходимо на ранних этапах отказаться от синтеза в пользу более доступного и дешевого аналога. Поэтому разрабатываемая методология позволит также определить план синтеза аналогов целевого соединения, разработка которых может быть существенно менее затратна. Это позволит также использовать разрабатываемое программное обеспечение как инструмент конструирования синтетически доступных соединений, обладающих заданными свойствами (то есть для de novo дизайна). Данный проект направлен на развитие особого раздела хемоинформатики – информатики химических реакций, к которому в последние годы в мировой науке происходит чрезвычайно быстрый рост интереса в связи с накоплением больших массивов данных и разработкой методов их глубокого анализа на основе принципов искусственного интеллекта. Нами были начаты систематические исследования методов и технологий предсказания характеристик реакций, обработки информации о них с использованием универсальной методологии, основанной на концепции Конденсированного графа реакции. В рамках данного проекта на ее основе будет разработана методология автоматизированного планирования синтеза органических соединений с использованием стратегии «от реагентов к продуктам», а также будет развита методология предсказания оптимальных условий проведения реакций включая оценку домена применимости этих моделей. С этой целью будет проводиться работа по развитию методологии предсказания характеристик химических реакций. Будут разработаны новые методы оценки качества статистических моделей для прогнозирования характеристик химических реакций, поскольку используемые в хемоинформатике стандартные подходы ориентированы для моделирования свойств молекул, и поэтому они плохо подходят для моделирования химических реакций. Будут также развиты две новые методологии предсказания условий проведения реакций, основанные на прямом и опосредованном предсказании условий. Планируется получение следующих результатов: 1. Новые методологии - методология автоматического построения плана синтеза органических соединений с использованием стратегии «от реагентов к продуктам» (прямой синтез), - методологии прямого и опосредованного предсказания условий проведения реакций, - методология оценки домена применимости моделей предсказания характеристик (скорости , условия) химических реакций, - методология несмещенной оценки предсказательной способности моделей, предназначенных для прогнозирования характеристик химических реакций, с использованием скользящего контроля по группам, - методология извлечения правил трансформации химических соединений на основе базы данных реакций, - методология применения правил трансформации к одному или нескольких химическим соединениям и предсказания возможных основных продуктов, - методология оценки возможности протекания данной химической реакции. 2. Программное обеспечение - программный продукт для планирования синтеза и предсказания условий реакций, - программный продукт для создания и оценки качества моделей, предназначенных для предсказания кинетических характеристик реакций, - программный продукт для создания и оценки качества моделей для прямого и опосредованного предсказания оптимальных условий реакций, - программный продукт для хранения химических соединений в виде базы данных. 3. Моделирование - модели опосредованного предсказания оптимальных условий проведения реакций на основе кинетических характеристик для реакций: нуклеофильного замещения (включая реакции Вильямсона, Меншуткина, замещения в ароматическом ядре), элиминирования, циклоприсоединения, гидролиза, электрофильного присоединения, - модели непосредственного предсказания условий реакций Михаэля и восстановления различных функциональных групп с использованием многослойных нейронных сетей и автокодировщиков с глубоким обучением. - модель для предсказания возможности проведения данной реакции. 4. Данные - будут собраны данные по кинетическим характеристикам реакций гидролиза (5000 данных), замещения (2000 данных), присоединения (2000) и других реакций (по необходимости) - сбор и подготовка данных по условиям реакций восстановления основных функциональных групп (нитро, двойные и тройные связи, карбонильные, карбоксильные, гидрогенолиз одинарных связей) - создание базы синтетических правил путем анализа данных из литературы и из баз данных. Планируется сбор около 70 синтетических правил, - формирование базы данных реагентов из каталогов поставщиков. Планируется сбор около 150 000 реагентов – синтетических блоков из баз поставщиков. 5. Валидация Разработанный подход планирования стратегии синтеза будет апробирован в проекте НОЦ Фармацевтика КФУ, посвященном разработке новых трициклических антидепрессантов, который был приостановлен в связи с трудностью синтеза интересующих соединений с использованием классических подходов. Модель предсказания условий реакций гидрирования будет апробирована для возможности ее применения к предсказанию условий реакций, протекающих в проточном реакторе гидрирования. Члены исследовательской группы участвуют в образовательной деятельности в рамках магистерской программы по хемоинформатике и молекулярному моделированию, созданной в Казанском федеральном университете в 2012 году. Студенты магистратуры будут активно вовлечены в исследования, проводимые в рамках нашего проекта. Исследование носит выраженный прикладной характер. Все разрабатываемые программное обеспечение будет предоставлено в пользование химикам как в виде автономных компьютерных программ, так и посредством доступного через Интернет веб-сервиса. iSynthesis станет первым инструментом планирования синтеза, открыто доступным для некоммерческого использования. В отличие от предыдущих подходов, в разрабатываемом программном комплексе построение стратегии синтеза химических соединений будет сопровождаться полным описанием всех стадий синтеза, включая условия проведения всех реакций, что позволит отобрать более надежные и легко реализуемые пути синтеза. Мы полагаем, что результаты этого проекта станут интересными и важными для всего химического сообщества. Практически любой проект по созданию лекарственных препаратов и материалов неизбежно включает в себя синтетический этап, который иногда является чрезвычайно долгим, если используется традиционный метод проб и ошибок. Мы считаем, что созданные инструменты позволят сэкономить человеческие и материальные ресурсы при разработке способов синтеза химических соединений.

ОТЧЁТНЫЕ МАТЕРИАЛЫ

Аннотация результатов, полученных в 2019 году
В разработке любого вещества, в особенности новых лекарственных препаратов, ключевая стадия заключается в проведении его синтеза. Цель настоящего проекта - создание методологии компьютерного планирования синтеза (iSynthesis), в рамках которой предлагается не только план синтеза, но также условия проведения реакций на всех его стадиях. В рамках первого года выполнения проекта решались три основные задачи: разработка прототипа системы планирования синтеза, разработка инструментов предсказания оптимальных условий реакций и совершенствование методологии моделирования "структура-реакционная способность" для последующего использования в опосредованном предсказании условий протекания реакций. Последнее подразумевает подбор условий, которые оптимизируют кинетику или региоселективность реакций. В данном проекте имеются три аспекта: разработка новых методологий, их программная реализация и использование последних для создания моделей. Для моделирования используется собранная ранее и пополняемая в рамках проекта база данных кинетических и термодинамических свойств химических реакций QSRR DB. Ключевой целью данного проекта является разработка инструмента планирования синтеза. Особенностью создаваемого инструмента является использование стратегии поиска пути синтеза интересующего соединения "от реагента к продукту", что имеет некоторые преимущества над стандартным ретросинтетическим подходом. В частности, он позволяет возвращать не только путь синтеза интересующего соединения, но также синтез похожих на него соединений. Ускорение работы поиска планируется осуществить за счет использования технологии Монте-Карло поиска по дереву, а также специальных эвристик и методов искусственного интеллекта. В рамках данного проекта был разработан базовый дизайн программного обеспечения для планирования химического синтеза на основе алгоритма поиска по дереву Монте-Карло, а также начата работа над программной реализацией инструмента. Так, был разработан API взаимодействия модулей в виде Python документации, что позволяет проводить быструю параллельную разработку приложения. Началась работа над составляющими продукта компонентами: модулем, описывающим архитектуру поиска по дереву и доступные методы работы с ним, модуль для осуществления Монте-Карло поиска по дереву, и вспомогательные модули для работы с данными. Следующим важным компонентом разрабатываемого инструмента планирования синтеза является создание инструмента для предсказания оптимальных условий протекания реакций. В рамках проекта планируется попробовать две основные технологии к предсказанию условий реакций: прямого предсказания и опосредованного. Используя первый подход, условия предсказываются непосредственно, без использования суррогатных моделей, предсказывающих характеристики реакций в определенных условиях. Сложность использования методологии прямого предсказания условий, в первую очередь, заключается в том, что одна и та же реакция может быть проведена в разных условиях, что делает невозможным использование классического подхода QSPR. Во-вторых, моделирование осложняется отсутствием отрицательных примеров, то есть не имеется данных по условиям, в которых реакция не протекает. В-третьих, невозможно утверждать, что предсказываемое моделью условия не подходят для текущей реакции, поскольку для большинства реакций не было проведено исчерпывающее изучение возможных условий. В рамках первого этапа выполнения проекта было разработано 3 технологии прямого предсказания условий реакций: (1) на основе классификационной нейронной сети с ранжированием по «функции правдоподобия», (2) на основе рекуррентного предсказания отдельных характеристик условий (температуры, давления, катализаторов и добавок) с использованием глубокой нейронной сети, и (3) ранжирование комбинации условий с использованием метода «ближайшего соседа». Первые два подхода основаны на использовании современных достижений методов глубокого обучения, третий создан в качестве сравнения и использует классические методы машинного обучения. Предложенные подходы были реализованы в виде программного инструмента с использованием библиотек TensorFlow и Scikit-learn. Также был разработан подход для валидации данных моделей, в основе которого лежат метрики качества ранжирования, используемые в информационном поиске. Для сравнения предложенных подходов был подготовлен набор данных по восстановлению множества функциональных групп, извлеченных из базы данных Reaxys. Набор содержал более 30 000 реакций, часть из которых использовались в обучении и около 3000 - в качестве тестовой выборки. Проведение моделирование с использованием данного набора показало, что наиболее точные результаты дал подход ранжирования по "функции правдоподобия". Худшим оказался подход рекуррентного предсказания условий. Метод ближайшего соседа показал промежуточные результаты, при этом он является самым простым в исполнении. Модели опосредованного предсказания оптимальных условий реакций требуют создания моделей, которые предсказывают характеристики реакций, протекающих в определенных условиях. Перебор возможных условий позволяет выбрать условия, оптимальные для протекания реакции. В рамках данного этапа выполнения проекта для тестирования данного подхода использовались наборы данных по кинетическим характеристикам реакций. Показано, что полученные предсказания оптимальных условий соответствуют представлениям о механизмах реакций и могут использоваться при наличии данных для построения суррогатных моделей. Дополнительным преимуществом опосредованного предсказания условий является предсказание константы скорости реакции, важнейшей характеристики, которая позволяет оценить выход и селективность реакции. В то же время, для качественного опосредованного предсказания условий ключевым моментом является высокое качество суррогатных моделей предсказания кинетических характеристик реакций. По этой причине была проведена работа по совершенствованию методологии предсказания характеристик реакций. Было проведено масштабное сравнение различных способов оценки доменов применимости моделей и выявлены лучшие подходы. Помимо широко используемых подходов, в работе изучались и предложенные нами подходы оценки домена применимости, специально разработанные для применения в моделировании характеристик реакций. Было обнаружено, что классический подход валидации качества QSAR моделей - скользящий контроль - дает завышенные оценки качества моделей в случае моделей "структура-реакционная способность". Поэтому в рамках проекта были разработаны две новые стратегии валидации: "solvent-out", которая позволяет оценить способность модели предсказывать свойства реакций, протекающих в новых растворителях, и "transformation-out", которая позволяет получить оценку способности модели предсказать скорость реакции с участием новых реагентов и продуктов. С использованием предложенных методологических новаций были обновлены модели предсказания кинетических характеристик реакций. Модели доступны по ссылке: https://models2019.cimm.site/. И, наконец, в рамках развития методологии моделирования характеристик химических реакций был предложен подход, который позволяет при построении модели "структура-свойство" учитывать наличие фундаментальных химических уравнений и внедрять их внутрь методов машинного обучения. Для линейных сопряженных моделей было разработано аналитическое выражение, расширяющее популярный метод гребневой регрессии. Для нелинейных - предложена специальная архитектура нейронной сети. Данный подход был апробирован на примере предсказания константы таутомерного равновесия, которая связана с кислотностью таутомерных форм. Показано, что это позволяет предсказывать обе характеристики без потери качества предсказаний и при этом улучшить предсказание кислотности минорных таутомерных форм.

Публикации

1. Занков Д.В., Маджидов Т.И., Рахимбекова А., Гимадиев Т.Р., Нугманов Р.И., Казымова М.А., Баскин И.И., Варнек А. Conjugated Quantitative Structure-Property Relationship Models: Application to Simultaneous Prediction of Tautomeric Equilibrium Constants and Acidity of Molecules Journal of Chemical Information and Modeling, 59, 11, 4569-4576 (год публикации - 2019) https://doi.org/10.1021/acs.jcim.9b00722

2. - Kazan University chemists teach neural networks to predict properties of compounds EurekAlert, Дата публикации: 21.01.2020 (год публикации - )

3. - Исследователи КФУ научили нейросеть использовать законы химии Медиапортал КФУ, Дата публикации: 20.01.2020 (год публикации - )

4. - Исследователи научили нейросеть принимать во внимание химические уравнения для создания новых лекарств и материалов Indicator.ru, Дата публикации: 19.01.2020 (год публикации - )

5. - Нейросеть научилась использовать химические уравнения для создания новых лекарств Газета.Ru, Дата публикации: 15.01.2020 (год публикации - )

Аннотация результатов, полученных в 2020 году
В разработке любого вещества, в особенности новых лекарственных препаратов, ключевая стадия заключается в проведении его синтеза. Цель настоящего проекта - создание методологии компьютерного планирования синтеза (iSynthesis), в рамках которой предлагается не только план синтеза, но также условия проведения реакций на всех его стадиях. В данном проекте имеются три аспекта: разработка новых методологий, их программная реализация и использование последних для создания моделей. На втором этапе выполнения проекта решалось три ключевые задачи: (i) разработка рабочего прототипа системы планирования синтеза "от реагентов к продуктам", (ii) разработке технологий предсказания условий реакций, (iii) сбора выборок по стартовым молекулам (строительным блокам) для синтеза, а также правил реакционной трансформации. Ключевой задачей являлась доработка инструмента предсказания стратегии синтеза за счет поиска комбинации реагентов, ведущих к получению структуры, максимально похожей на целевую (в пределе - самой целевой структуры). На данном этапе были реализованы все требующиеся для работы инструмента программные компоненты: создана база данных молекул-строительных блоков, реализован виртуальный реактор, реализован алгоритм поиска на основе Монте-Карло обхода по дереву. Молекулы-строительные блоки были собраны нами из баз данных коммерчески доступных соединений, всего после чистки осталось 501 000 молекул. Для сбора правил реакционной трансформации молекул (аналога правил ретросинтеза) был имплементирован специальный подход, который позволяет включать в правило элементы химической структуры, определяющие реакционную способность и селективность. С их помощью из базы данных USPTO было извлечено 170 000 правил. Было обнаружено, что правила, которые соответствуют очень малому числу реакций, часто бывают ошибочными. По этой причине мы оставили около 2300 реакционных шаблонов, соответствующих 50 и более реакциям. Для алгоритма планирования синтеза требовалось создать два компонента, определяющих его успешность и скорость работы: подход оценки перспективности узла поискового дерева (то есть численная оценка возможности синтеза целевой молекулы из данной молекулы), и подход быстрого отбора реагентов, которые необходимо добавить к текущей молекуле, чтобы получить продукт, более похожий на целевую молекулу. Для реализации каждого подхода было протестировано 2 группы методов - (i) на основе эвристик, основанных на молекулярном подобии, и (ii) на основе обучения нейронной сети специальной архитектуры. Для сбора данных для обучения нейронных сетей были реализованы подходы, основанные на анализе сети химических реакций. В результате каждая нейронная сеть обучалась на нескольких миллионах данных. Было выявлено, что для оценки перспективности узла поискового дерева лучше всего подходит эвристика на основе использования индекса сходства Тверского. Для быстрого отбора реагентов более всего подходит нейронная сеть, ранжирующая строительные блоки по их применимости к данной реакции при заданной целевой молекуле. Кроме того, в инструменте планирования синтеза были реализованы программные интерфейсы (API функции), позволяющие внедрять в него модели предсказания условий синтеза и оценки возможности протекания сгенерированной реакции. Разработанный инструмент был протестирован для поиска стратегий синтеза 10 лекарств с известными путями синтеза. Для 5 лекарств был найден путь синтеза, в остальных случаях были предложены пути синтеза до сходных молекул, среди которых от 7 до 76% (в зависимости от молекулы) были весьма похожи на целевые (индекс Танимото > 0.8). Вторым важным компонентом разрабатываемой технологии является предсказание условия протекания реакций. Предполагалось развитие двух подходов: непосредственное (прямое) предсказание условий и опосредованное предсказание на основе использования QSAR моделей. Для непосредственного предсказания условий были предложены модели предсказания условий на основе условных вариационных автокодировщиков, которые для каждой реакции могли семплировать список возможных условий ее проведения. Данный подход показывал очень хорошие результаты на наборе данных реакций близких типов (каталитического гидрирования). Однако в больших наборах разнообразных реакций (9.5 млн реакций Reaxys) они значительно проигрывали предложенному нами на предыдущем этапе проекта ранжированию с использованием метода ближайших соседей. По этой причине, для предсказания условий была программно реализована последняя модель, потребовавшая специальной оптимизации из-за использования больших объемов данных. Подход опосредованного предсказания условий требовал использования натренированных моделей, предсказывающих скорость реакций в зависимости от условий. Далее перебором условий выбирались те, которые для данной реакции обеспечивают максимальную скорость или селективность. Для реализации этого подхода с использованием всех накопленных в проекте данных и доработанных технологий моделирования (перечислены ниже) было построено 6 моделей предсказания константы скорости реакции (SN1, SN2, SNAr, E2, Дильса-Альдера, гидролиза) и модель константы таутомерного равновесия. Два набора данных (SN1, SNAr) были собраны на данном этапе исполнения проекта. Был предложен ряд методологических новаций для построения моделей "структура-реакционная способность". Разработан подход моделирования, напрямую использующий Конденсированный граф реакции в моделировании за счет применения графовых конволюционных нейронных сетей. Этот подход показал преимущества перед иными способами моделирования для большинства использованных для тестирования реакций. Также был предложен более строгий и несмещенный способ оценки предсказательной способности моделей, позволяющий оценить качество предсказаний реакции с новыми реагентами и продуктами или протекающих в новых растворителях реакций. И, наконец, развивалась методология сопряженного обучения, которая позволяет внедрять известные химические закономерности внутрь моделей "структура-реакционная способность". Были предложены модели, предсказывающие скорость реакций с помощью внедрения уравнения Аррениуса в процесс поиска зависимости между структурой реакции и ее скоростью. Для этого было выведено уравнение для нахождения оптимальных коэффициентов при построении линейной модели (гребневой регрессии), а также разработана специальная архитектура нейронной сети для сопряженного моделирования. Было показано, что этот подход дает ряд преимуществ перед классическим моделированием. Кроме того, был разработан подход моделирования соотношения продуктов конкурирующих реакций с помощью зависимости ее от констант скорости. Применение полученных моделей "структура-реакционная способность" к предсказанию оптимальных условий показало, что предлагаемые оптимальные растворители и температуры практически не изменяются для разных реакций. С другой стороны, это говорит о возможности заменить модели опосредованного предсказания условий реакции простыми правилами в инструменте iSynthesis. Модели, построенные для опосредованного предсказания реакций доступны на сервере лаборатории по адресу http://models2021.cimm.site В рамках данного этапа реализации проекта был предложен подход, которые позволяет предсказывать новые типы химических реакций. Подход основан на кодировании реакции в виде Конденсированного графа реакции, используемого для тренировки автокодировщика на основе глубокого обучения. Семплирование реакций из него позволило нам найти новые реакции, похожие на реакции Сузуки. Был разработан подход, который позволяет оценивать возможность протекания указанной химической реакции. Для этого был сформирован набор данных известных реакций и с помощью специального подхода был создан набор реакций, которые не протекали в данных условиях. Обученная на данных реакциях нейронная сеть показала неплохую сбалансированную точность, достигающую 84%. По результатам проекта опубликовано 4 статьи, три из которых вышли в журналах категории Q1.

Публикации

1. Борт У., Баскин И.И., Гимадиев Т.Р., Муканов А., Нугманов Р.И., Сидоров П.О., Марку Ж., Хорват Д.. Климчук О., Маджидов Т.И., Варнек А. Discovery of novel chemical reactions by deep generative recurrent neural network Scientific Reports, V. 11, №3178 (год публикации - 2021) https://doi.org/10.1038/s41598-021-81889-y

2. Гимадиев Т.Р., Нугманов Р.И., Батыршин Д.С., Маджидов Т.И., Маеда С., Сидоров П.О., Варнек А. Combined Graph/Relational Database Management System for Calculated Chemical Reaction Pathway Data Journal of Chemical Information and Modeling, V. 61, Is. 2, P. 554-559 (год публикации - 2021) https://doi.org/10.1021/acs.jcim.0c01280

3. Рахимбекова А., Ахметшин Т.Н., Минибаева Г.И., Нугманов Р.И., Гимадиев Т.Р., Маджидов Т.И., Баскин И.И., Варнек А.. Cross-validation strategies in QSPR modelling of chemical reactions SAR and QSAR in Environmental Research, V. 32, Is. 3, P. 207-219 (год публикации - 2021) https://doi.org/10.1080/1062936X.2021.1883107

4. Рахимбекова А., Маджидов Т.И., Нугманов Р.И., Гимадиев Т.Р., Баскин И.И., Варнек А. Comprehensive Analysis of Applicability Domains of QSPR Models for Chemical Reactions INTERNATIONAL JOURNAL OF MOLECULAR SCIENCES, V. 21, Is. 15, P. 5542 (год публикации - 2020) https://doi.org/10.3390/ijms21155542

5. - Искусственный интеллект поможет в создании лекарств Indicator, дата выхода: 26.03.21 (год публикации - )

6. - Искусственный интеллект научили предсказывать новые химические реакции ПОРТАЛ «НАУЧНАЯ РОССИЯ», дата выхода: 25.02.21 (год публикации - )

7. - Искусственный интеллект научился предсказывать новые химические реакции ТАСС, дата выхода: 25.02.21 (год публикации - )

8. - Искусственный интеллект научили предсказывать новые химические реакции Газета.ру, дата выхода: 25.02.2021 (год публикации - )

9. - Казанские химики нашли 40 новых типов реакций с помощью искусственного интеллекта Татар-информ, дата выхода: 20.02.2021 (год публикации - )

Аннотация результатов, полученных в 2021 году
В разработке любого вещества, в особенности новых лекарственных препаратов, ключевая стадия заключается в проведении его синтеза. Цель настоящего проекта - создание технологии компьютерного планирования синтеза (iSynthesis), в рамках которой предлагается не только план синтеза, но также условия проведения реакций на всех его стадиях. В данном проекте имеются три аспекта: разработка новых методик, их программная реализация и использование последних для создания моделей. На третьем этапе выполнения проекта решалось три ключевые задачи: (i) завершение разработки системы iSynthesis, (ii) разработке модели предсказания условий реакций, (iii) разработке способа оценки возможности протекания конкретной реакции. После оптимизации как как самой системы, так и разработки и доработки подходов, реализующих отдельные ее аспекты, было создано 2 версии системы iSynthesis – публично доступная для скачивания на сайте https://cimm.site/projects/isynthesis.html (упакована в виде Docker-контейнера), в основе которой используется информация из публично доступной БД USPTO, и проприетарная, доступная для использования в лаборатории, основанная на данных из БД Reaxys (не может быть опубликована в связи с требованиями правообладателя данных). Финальная версия инструмента была протестирована на 15 лекарственных соединениях с известными путями синтеза (извлеченными из USPTO), для 5 из которых система предложила пути синтеза короче, чем были представлены в патентной литературе. Однако, когда разработанный инструмент не находит литературный путь за определенное количество шагов, он предлагает синтез аналогов. В большинстве случаев (>85%) среднее количество стадий в пути синтеза целевой молекулы и/или ее аналогов, полученных с помощью данного инструмента, меньше, чем в литературных путях. В среднем расчет одной молекулы занимал 10 часов. Были предложены и изучены две новых методологии прямого предсказания условий – основанная на использовании нейронной сети архитектуры трансформер и подход на основе быстрой оценки сходства реакций. Оба подхода отличились высокой предсказательной способностью по сравнению с лучшим по результатам второго этапа методом предсказания условий подходом k ближайших соседей. В систему планирования синтеза iSynthesis был интегрирован именно второй в первую очередь в связи с резко превосходящей скоростью предсказания (0.0043-0.008 сек на реакцию). Модель, базирующаяся на этом подходе и обученная на свободно доступных данных из БД USPTO, опубликована на странице лаборатории по адресу rcconditions.cimm.site. Была осуществлена попытка оптимизации поиска стратегии синтеза "от реагентов к продукту" за счет замены метода на основе использования Монте-Карло поиска по дереву на базирующийся на использовании генетического алгоритма оптимизации. Несмотря на ощутимое снижение потребляемой оперативной памяти и упрощение процедуры настройки, новый метод не подошел для интеграции в iSynthesis в связи с медленной сходимостью. Для обучения и тестирования большинства модулей, составляющих систему планирования синтеза "от реагентов к продуктам" iSynthesis, а также различных методологий и подходов, лежащих в их основе, требовались тщательно курированные выборки, содержащие минимальное количество ошибок. В целях решения этой задачи был адаптирован протокол курирования информации о химических реакциях, включающий стандартизацию отдельных молекул. Его применение позволило получить из исходных наборов баз данных Reaxys и USPTO тщательно курированные выборки, впоследствии использованные для извлечения из них правил реакционной трансформации, моделирования условий и выходов реакций. Для наборов данных создано атом-атомного отображение (ААО) с использованием программы RXNMapper, показавшей лучшее качество согласно литературным данным. Ошибки ААО, оставшиеся после этого, исправлялись с помощью инструмента AAM Fixer, базирующегося на специальных правилах, реализованных с использованием подхода мета-КГР. Создан веб-инструмент, который позволяет вручную генерировать правила исправления ААО и использовать его для новых баз данных. Для разработки подходов и их тестирования с точки зрения интеграции в модули предсказания условий и возможности проведения реакций требовались наборы данных, включающие как можно большее количество условий проведения реакций. Для этих целей был имплементирован (и впоследствии апробирован с получением в итоге выборки, включающей в себя 1 237 813 реакций) протокол выявления условий на основе данных, представленных в БД USPTO. Для разработки модуля позволяющего отсекать нереалистичные реакции был апробирован подход предсказания выхода. Модель предсказания выходов была обучена на основе набора данных из БД Reaxys, но эффективность оказалась недостаточно высокой – при классификации значение сбалансированной точности достигло 0.76, регрессионное моделирования отличалось крайне низкой точностью. Также был предложен подход моделирования энантиоселективности реакций на основе многовариантного обучения и 3D дескрипторов катализаторов. Отдельная работа проводилась в совершенствовании правил синтетической трансформации, от которых в значительной степени зависит корректность синтетического пути. В целях улучшения качества базы синтетических трансформаций было произведено, во-первых, ее расширение за счет добавления дополнительных наборов синтетических трансформаций - правил «псевдо-трансформаций», вручную собранных методов синтеза N-гетероциклов с одним или несколькими кольцами. Ранее входящие в базу синтетические трансформации, полученные путем автоматического извлечения из базы данных USPTO, были заменены на дополнительно очищенные и проверенные с помощью специального протокола курирования реакций и дополнительных фильтров корректности синтетических трансформаций. Валидация инструмента iSynthesis проводилась в НОЦ фармацевтики КФУ. Система использовалась для поиска пути синтеза новых антимикробных лекарственных средств. Из 4 интересующих синтезов система нашла способ синтеза 3 соединений, для одного синтеза был найден только ближайший аналог. 1 синтез был воспроизведен полностью с хорошими выходами, 1 синтез был воспроизведен почти полностью – не удалось провести одну стадию. Один синтез было решено не воспроизводить из-за отсутствия необходимых реагентов. Только в одном случае были сомнения в возможности достижения соединения по заявленной методике из-за неудачно выбранной системой защитной группы. По результатам текущего этапа проекта опубликовано 4 статьи, включая 2 статьи уровня Q1 и 1 обзор. Участники проекта сделали 10 докладов на 6 научных мероприятиях.

Публикации

1. В.А. Афонина, Д.А. Мазитов, А. Нурмухаметова, М.Д. Шевелев, Д.А. Хасанова, Р.И. Нугманов, В.А. Бурилов, Т.И. Маджидов, А. Варнек Prediction of Optimal Conditions of Hydrogenation Reaction Using the Likelihood Ranking Approach International Journal of Molecular Sciences, V. 23, Is. 1, P. 248 (год публикации - 2022) https://doi.org/10.3390/ijms23010248

2. Занков Д., Матвеева М., Никоненко А.В., Нугманов Р.И., Баскин И.И., Варнек А. QSAR Modeling Based on Conformation Ensembles Using a Multi-Instance Learning Approach Journal of Chemical Information and Modeling, V. 61, Is. 10, P. 4913-4923 (год публикации - 2021) https://doi.org/10.1021/acs.jcim.1c00692

3. Занков Д., Полищук П., Маджидов Т., Варнек А. Multi-Instance Learning Approach to Predictive Modeling of Catalysts Enantioselectivity SynLett, V. 32, P. 1833-1836 (год публикации - 2021) https://doi.org/10.1055/a-1553-0427

4. Маджидов Т.И., Рахимбекова А., Афонина В.А., Гимадиев Т.Р., Мухаметгалеев Р.Н., Нугманов Р.И., Баскин И.И., Варнек А. Machine learning modelling of chemical reaction characteristics: yesterday, today, tomorrow Mendeleev Communication, V. 31, P. 769-780 (год публикации - 2021) https://doi.org/10.1016/j.mencom.2021.11.003

5. - Искусственный химик: как искусственный интеллект помогает открывать лекарства и синтезировать молекулы На острие науки, Лекция тематического месяца "Искусственный интеллект" (год публикации - )

Возможность практического использования результатов
Разрабатываемая система iSynthesis является уникальной технологией, позволяющей осуществлять поиск пути синтеза интересующего вещества и его аналогов. Она призвана содействовать процессам разработки молекул с желаемыми свойствами. В отличие от имеющихся коммерческих и некоммерческих инструментов планирования синтеза, ее использование позволит искать способы синтеза интересующего соединения или его структурных аналогов, отличающихся простотой синтеза, кроме того, она может предсказывать условия синтеза, что недоступно даже в большинстве коммерческих инструментов. Это позволяет сократить временные и финансовые затраты, требующееся на поиск пути синтеза молекулы, а также опосредованно - экологическую нагрузку. Основными потенциальными сферами применения инструмента являются: фармацевтическая отрасль и разработка лекарственных препаратов, агрохимические разработки и поиск ветеринарных препаратов, иные области промышленности, требующие создания молекул с заданными свойствами. В условиях ограничения доступа к зарубежному программному обеспечению для планирования синтеза она может предоставить альтернативу. Перспективы имеют и иные результаты проекта, полученные в ходе его выполнения: - предложенный т подход предсказания энантиоселективности может использоваться для поиска оптимальных хиральных катализаторов. Эта область важна в тонком органическом синтезе и разработке технологий мелко- и крупнотоннажного синтеза фармсубстанций и пищевых добавок, иных важных хиральных молекул. - разработанная система предсказания условий реакций может использоваться на любых наборах данных. В рамках проекта создана система предсказания условий, основанная на некоммерческой базе данных реакций из патентов USPTO. Она может свободно использоваться в решении задач синтетической химии. В условиях ограничения доступа к коммерческим базам данных этот фактор может играть положительную роль.