КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 14-43-00024

НазваниеМоделирование органических и метаболических реакций методами хемоинформатики: от эмпирической к предсказательной химии

РуководительВарнек Александр , Доктор химических наук

Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Казанский (Приволжский) федеральный университет", Республика Татарстан (Татарстан)

Период выполнения при поддержке РНФ 2017 г. - 2018 г. 

Конкурс Конкурс на продление сроков выполнения проектов, поддержанных грантами Российского научного фонда по приоритетному направлению деятельности Российского научного фонда «Проведение фундаментальных научных исследований и поисковых научных исследований международными научными группами».

Область знания, основной код классификатора 03 - Химия и науки о материалах, 03-705 - Хемоинформатика

Ключевые словахемоинформатика, молекулярное моделирование, экспертные системы, органические и метаболические реакции, химические базы данных, OSAR/QSPR

Код ГРНТИ31.01.77


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Данный проект нацелен на развитие новых подходов хемоинформатики к количественной оценке кинетических и термодинамических параметров химических реакций, а также к определению оптимальных условий для проведения заданной реакции. Другой задачей проекта является разработка алгоритмов для автоматизированной стандартизации и коррекции неполных данных по реакциям, составляющих большинство в современных базах данных, а также анализ и визуализация больших объемов (миллионы) реакционных данных. Химическая реакция является очень сложным объектом для моделирования, поскольку ее описание включает спецификацию как химических соединений (реагентов и продуктов реакции), так и условий проведения реакции (катализаторов, растворителей и разнообразных добавок). Существующие в настоящее время в хемоинформатике подходы ориентированы, главным образом, на обработку информации лишь об индивидуальных химических соединений, для кодирования которых используются молекулярные дескрипторы. Прямое использование таких методов, поскольку не ясно, какие дескрипторы должны быть рассчитаны для реагентов и продуктов реакции, а также для условий ее протекания. Ключевым элементом разрабатываемой нами методологии является подход Конденсированного Графа Реакции (КГР), в рамках которых химическая реакция рассматривается как одна псевдомолекула. Благодаря такому значительному упрощению становится возможным применять для работы с химическими реакциями арсенал методов хемоинформатики, разработанных для работы с индивидуальными молекулами. В частности, для КГР могут быть рассчитаны специальные фрагментные дескрипторы, которые могут быть использованы как для построению количественных моделей «структура – характеристики реакции» (QSRR, Quantitative Structure-Reactivity Relationships), так и для осуществления поиска похожих реакций в базах данных. Тот факт, что любая химическая реакция может быть представлена набором фрагментных дескрипторов, открывает путь построения многомерного пространства химических реакций, которое может быть проанализировано с использованием методов понижения размерности. Эти достоинства КГР были использованы в Проекте 2014, где была проведена значительная работа по созданию уникальной базы данных, содержащей термодинамические и кинетические параметры реакций, построены предсказательные модели, связывающие структуру реагентов и продуктов с константой скорости реакции или с константой равновесия, создана экспертная система, способная предсказывать оптимальные условия реакций снятия защитных групп. Эта работа будет продолжена в Проекте 2017 с использованием новейших информационных технологий. В новом проекте мы существенно расширим как методологию анализа и моделирования реакций, так и области ее применения. В частности, метод Генеративного Топографического Отображения будет использован для визуализации и анализа больших массивов данных, нейронные сети Хопфилда и Ограниченные Машины Больцмана будут применены для классификации реакций в базах данных. В плане объектов изучения, особый акцент будет сделан на реакциях, активно используемых в медицинской химии для синтеза новых лекарственных препаратов. Для этих реакций будут разработаны реакционные сигнатуры - специальные хеш-коды для поиска в базах данных, которые будут использованы для статистического анализа 1,1 миллиона реакций, извлеченных из патентов. Экспертная система для оценки оптимальных экспериментальных условий реакций каталитического гидрирования с участием защитных групп будет существенно модифицирована за счет использования современных методов машинного обучения - нейронных сетей Хопфилда и Ограниченных Машин Больцмана, что позволит добиться существенного уменьшения ошибки предсказания. В рамках проекта 2017 мы продолжим работу по сбору реакционных данных из литературы и кандидатских и докторских диссертаций для расширения базы данных с информацией о кинетических и термодинамических параметрах реакций. Число записей в базе будет удвоено и достигнет 40000 записей. Разработанная база данных и экспертная система, включающая предсказательные модели термодинамических и кинетических параметров различных классов реакций и оптимальных условий их проведения (катализатор, растворитель, температура и др.) будут доступны для пользователей на специальном WEB сервере. Мы надеемся, что разработанные в проекте теоретические подходы и программные средства позволят значительно снизить людские и материальные затраты, облегчая химикам выбор наилучших реагентов и оптимальных условий проведения реакций. В международной исследовательской группe участвуют ведущие специалисты по хемоинформатике из Франции, Германии, США и Чехии. Российская команда включает в себя ученых из Казанского федерального университета и Московского государственного университета. Все члены исследовательской группы будут участвовать в образовательной деятельности в рамках новой магистерской программы по хемоинформатике, созданной в Казанском университете в 2012 году. Эти магистранты также будут вовлечены в исследования, проводимые в рамках нашего проекта. Участие в данном проекте и некоторые его результаты найдут отражение в готовящемся участниками проекта первом в России учебнике по хемоинформатике, который уже частично был опубликован в КФУ в виде набора учебных пособий. Участники из КФУ и Страсбурга совместно организовали несколько международных конференций и летних школ по хемоинформатике в России и во Франции. Эта деятельность будет активно продолжена в рамках данного проекта.

Ожидаемые результаты
Развитие синтетической химии к началу XXI века привело к накоплению огромного количества данных, число которых экспоненциально растет со временем. Так, благодаря современным технологиям синтеза, реализованных в параллельных, комбинаторных, проточных и микроволновых реакторах, количество данных по химическим реакциям в крупнейших базах данных CAS и Reaxys удвоилось за последние 3 года и составило более 100 миллионов. Взрывное накопление экспериментальной информации создает благоприятные перспективы для хемоинформатики, реализующей методы искусственного интеллекта, целью которых является извлечение из "сырых" экспериментальных данных качественных и количественных закономерностей, подсказывающих химикам стратегию синтеза и выбор оптимальных экспериментальных условий. Вместе с тем, применение методов искусственного интеллекта к реакциям крайне ограничено, причиной чего является как проблема качества "сырых" данных, зарегистрированных в базах, так и сложность химической реакции как объекта моделирования. Именно этим объясняется как неудовлетворительное развитие методов анализа и моделирования реакционных данных, так и отсутствие программных средств, априори оценивающих важные для новых реакций параметры. В следствие этого, методы хемоинформатики чрезвычайно редко используются в в синтетической органической химии и, как правило, химики опираются на метод проб и ошибок, зачастую приводящий к колоссальным временным материальным потерям. Задачей нашего проекта является развитие новых подходов интеллектуального анализа реакционных данных и создание комплекса программных продуктов, которые помогут химику-синтетику в его повседневной работе. Все эти подходы базируются на оригинальной концепции конденсированных графов реакций (КГР), в рамках которого химическая реакция, включающая несколько реагентов и продуктов, рассматривается как одна псевдо-молекула. Благодаря такому значительному упрощению становится возможным применять для работы с химическими реакциями эффективные методы анализа и визуализации данных, а также моделирования "структура-свойство", разработанные в хемоинформатике для работы с индивидуальными молекулами. Часть этих задач было выполнено в Проекте 2014. В проекте 2017 мы сделали акцент на методах анализа, обработки и извлечении полезных для химика знаний из больших объемов «сырых» реакционных данных. Мы предполагаем существенно расширить границы применимости подходов и инструментов, разработанных в Проекте 2014, с учетом новейших информационных технологий, развитых в последние годы. Мы продолжим работу по созданию предсказательных моделей для кинетических и термодинамических параметров новых типов реакций и оптимальных условий их проведения. Совершенно новым направлением является применение концепции КГР для предсказания специфических трансформаций молекул, приводящих либо к существенным («всплески и провалы» активности), либо к несущественным (биоизостеры) изменениям в биологической активности соединений. Особое внимание будет уделено доступности и простоте использования разработанных в проекте программных средств. Отметим, что несмотря на очевидную актуальность данной тематики, публикации по применению методов искусственного интеллекта к проблематике химических реакций крайне редки. Мы надеемся, что результаты Проекта 2017 будут востребованы химическим сообществом. В рамках Проекта 2017 мы поставили перед собой следующие задачи: 1. Разработка методологии для стандартизации, дополнения и анализа «сырых» данных по химическим реакциям. Планируется создание программного продукта, который будет проводить стандартизацию представления химических реакций, идентификацию пропущенных в уравнении реакции реагентов и продуктов, создание максимально корректного атом-атомного отображения (ААО), идентификацию типа реакции и поиск дубликатов. Для этого будут разработаны следующие подходы: (a) принципиально новый метод создания ААО на основе машинного обучения, аналогов которому нет в литературе. В отличие от других подходов этот метод способен обучаться, чтобы создать корректное ААО, (б) технология автозаполнения информации о пропущенных в уравнении реакции реагентах и продуктах, (в) набор правил для корректной стандартизации реакции. Существующие в хемоинформатике инструменты способны корректно работать с молекулами, но зачастую вносят ошибки в представление реакций, (г) протокол обработки информации о реакциях, включающих инструменты, разработанные в Проектах 2014 и 2017. Этот протокол будет воплощен в виде программного продукта, принимающего на вход «сырые» реакции, выдающий стандартизированные реакции с метками качества данных. Мы полагаем, что эта методология и соответствующие программные продукты позволят трансформировать "сырые" реакционные данные в информацию, которая может легко поддаваться анализу с использованием методов искусственного интеллекта. Мы надеемся, что эта новая информационная технология будет востребована в современных базах реакционных данных. Договор о сотрудничестве, подписанный v 2016 г. между лабораторией хемоинформатики КФУ и фирмой RELX Group (собственник базы данных Reaxys) показывает интерес промышленности к нашим разработкам. 2. Анализ и визуализация больших объемов данных по химическим реакциям. В Проекте 2014 был разработан набор инструментов для визуализации реакционных данных в виде двумерных карт GTM (Generative Topographic Mapping. Вместе с тем оказалось, что для визуализации больших объемов реакционных данных в пространстве дескрипторов большой размерности требуется существенная доработка алгоритма. В рамках Проекта 2017 алгоритм инкрементального GTM будет существенным образом модифицирован, затем использован для анализа 1.1 миллионов реакций из патентов. Мы полагаем, что данный инструмент будет востребован в современных базах данных, поскольку позволит представить все зарегистрированные в ней реакции в виде двумерной карты, на которой в цвете будут выделены области заселенные реакциями разных типов. Такая карта сама по себе является инструментом анализа содержания базы. Сопоставление таких карт, построенных для базы данных в разные годы, покажет эволюцию этой базы во времени. Последнее будет продемонстрировано на реакционной базе данных патентов для поиска наиболее перспективных реакций. 3. Автоматизированный анализ содержания баз данных химических реакций. Как правило, реакции в базах данных аннотируются вручную. Вместе с тем, огромное количество новых реакций ежедневно поступающих в базы, делает необходимость автоматизированной классификации реакций очевидной. В проекте будет разработано два альтернативных подхода для определения типа реакций. Первый основан на использовании реакционных сигнатур, т.е. структурных мотивов КГР, однозначно идентифицирующих данную реакцию. Этот подход может использоваться для быстрого поиска реакции интересующего типа в базе данных. Основы методологии получения реакционных сигнатур были развиты в Проекте 2014. В случае, если в базе данный имеются типы реакций, для которых не получены сигнатуры, они могут быть идентифицированы с помощью другого подхода - методом рекуррентных нейронных сетей, который мы планируем впервые применить к анализу "больших" реакционных данных. Для выявленных таким образом неаннотированных реакций, могут впоследствии быть получены сигнатуры. В данном проекте мы планируем построить сигнатуры для нескольких десятков наиболее применяемых в медицинской химии реакций. Эти сигнатуры в комбинации с методом рекуррентных нейронных сетей будут использованы для анализа 1.1 млн. реакций из патентов. Таким образом предполагается предоставить пользователям как методологию автоматической классификации реакционных данных, так и полностью аннотированную по типам реакций базу патентов. 4. Моделирование оптимальных экспериментальных условий для реакций каталитического гидрирования. В Проекте 2014 был создан прототип экспертной системы для предсказания оптимальных условий реакции снятия защитных групп. Разработанный в проекте инструмент реализовал методологию, основанную на принципе сходства реакций. В рамках Проекта 2017 для оценки оптимальных экспериментальных условий будет использован подход с использованием рекуррентных нейронных сетей (Хопфилда и Ограниченных машин Больцмана), что существенно позволит улучшить качество предсказаний. Помимо создания системы предсказаний, нами будет создана система для анализа реакционной способности групп в различных условиях. Результатом станет публикация Электронных таблиц реакционной способности, аналогичных Green’s Reaсtivity Charts в книге “Greene’s Protective Groups in Organic Synthesis”. Эти таблицы позволят химику выбрать оптимальный катализатор для проведения интересующих их трансформаций защитных и функциональных групп в условиях гидрирования. Особенностью нашей разработки является то, что Таблицы будут результатом анализа сотен тысяч данных по реакциям гидрирования в базе Reaxys на основе четких количественных критериев оценки реакционной способности и будут обновляться по мере появления новых данных. В конце 2016 года был заключен соответствующий договор с компанией RELX Group, Швейцария. Отметим, что предложенная методология оценки оптимальных условий реакций является уникальной и, на сегодняшний день, не имеет аналогов в мире. 5. Построение предсказательных моделей для «биоизостеров». Нами было показано, что подход КГР может быть эффективно использован для описания трансформаций молекул, приводящих к резким изменениям в биологической активности (всплески и провалы активности, англ. activity cliff), либо не изменяют активность (биоизостеры). В рамках данного проекта планируется разработать подход, который позволит предсказать, изменяются ли биологическая активность соединений при замене в молекуле одной структурной группировки на другую для данной биомишени. Анализ будет проведен с использованием данных базы ChEMBL для 10 различных биомишеней. С использованием данного подхода будет разработана модель, опубликованная на сайте. Будет также создан алгоритм для предсказания какие можно провести биоизостерные замены в заданной молекуле. Этот подход является уникальным и может быть востребован в медицинской химии при разработке новых медикаментов. 6. Создание базы данных и предсказательных моделей по кинетике и термодинамике химических реакций. В рамках Проекта 2017 будет продолжен сбор данных в уникальную базу данных характеристик химических реакций QSRR DB. Данная база по результатам выполнения Проекта 2014 содержит более 14000 кинетических и 15000 термодинамических характеристик химических реакций. Планируется удвоить объем базы за счет сбора новых термодинамических и кинетических параметров для реакций гидролиза, биполярного циклоприсоединения, депротонирования, бимолекулярного и мономолекулярного нуклеофильного замещения и элиминирования, реакций Дильса-Альдера. Для собранных реакций и свойств будут построены предсказательные модели для прогноза различных характеристик: констант скоростей, констант равновесия, барьеров активации и предэкспонентальных множителей в уравнении Аррениуса, селективность реакций. Как сама база данных, содержащая информацию о важных параметрах популярных реакций, так и соответствующие предсказательные модели являются уникальным информационным продуктом, который будет востребован химиками для дизайна новых реакций. Программные продукты, созданные в рамках Проекта 2017 будут доступны пользователям посредством веб-интерфейса. Таким образом, химики получат возможность теоретически оценивать наиболее важные характеристики реакций, что позволит существенно снизить финансовые и временные затраты на разработку стратегии синтеза и оптимизации условий. Отметим, что реализация Проекта 2014 уже привела к существенному развитию сообщества ученых и специалистов в области хемоинформатики в России. В рамках Проекта 2017 планируется продолжить традицию проведения Летних школ по хемоинформатике, которые проходят каждый нечетный год в КФУ (пройдет 5-7 июля 2017 г.), и проведения Школ-семинаров «От эмпирической к предсказательной химии» (пройдет в мае 2018). Эти мероприятия соберут молодых ученых, студентов и аспирантов со всей России, где они смогут встретиться с самыми известными специалистами в данной области. Проект оказал существенное влияние на развитие университетского образования в области хемоинформатики. Почти все участники проекта были вовлечены в образовательный процесс. Четыре участника проекта (А. Варнек, И.С. Антипин, И.И. Баскин, Т.И. Маджидов) образовали авторский коллектив первого в России учебника по хемоинформатике, отдельные главы которого уже были опубликованы в виде учебных пособий в КФУ. В настоящее время опубликовано 4 пособия (> 1000 страниц), и эту работу планируется продолжать в рамках сотрудничества, создаваемого данным проектом. Учитывая тот факт, что после создания в 2012 году первой магистратуры по хемоинформатике в КФУ, при участии участников проекта было открыто еще две (МФТИ и ИТМО) и имеются сведения об открытии еще 1-2 в различных университетах России, имеется большой потенциальный спрос на обмен опытом, преподавания хемоинформатики, учебным и методическим пособиям. Можно утверждать, что реализация данного проекта позволит и укрепить связи в сообществе специалистов, работающих в области хемоинформатики, дизайна лекарств и материалов. В реализацию проекта активно привлекались и будут привлекаться студенты магистратуры по хемоинформатике КФУ. Исследования в области хемоинформатики привлекли большой интерес компаний, имеющих проекты в области анализа информации о химических реакциях. Так, было начато сотрудничество с базой данных ChemSpider Reactions, компанией Science Data Software, США, был заключен договор о сотрудничестве с компанией RELX Group, Швейцария, владельцем базы данных Reaxys. Последний дает нам возможность получать большие наборы реакций посредством открытых нам API-функций информационной системы для развития проекта в области анализа и предсказания условий снятия защитных групп. Мы планируем и далее привлекать внимание IT компаний к данному проекту, задачей которого является создание методологии и инструментов для работы с большими базами данных реакций. Планируется дальнейшая поддержка мобильности молодых специалистов в области хемоинфоматики, принимающих участие в данном проекте: запланированы достаточно долгосрочные стажировки (1-2 месяца) участников проекта в Университете Страсбурга и Центре Гельмгольца в Мюнхене для проведения совместных исследований и обучения. Кроме того, планируется активно популяризировать результаты проекта, участвуя в российских и зарубежных конференциях. По результатам проекта планируется подготовить 12 статей в иностранных журналах и 12 публикаций в журналах и сборниках, индексируемых РИНЦ.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2017 году
Данный проект является продолжением начатого в 2014 году проекта «Моделирование органических и метаболических реакций методами хемоинформатики: от эмпирической к предсказательной химии». Данный проект нацелен на развитие новых подходов, основанных на методах хемоинформатики, к количественной оценке кинетических и термодинамических параметров химических реакций, а также к определению оптимальных условий для проведения реакций. Другой задачей проекта является разработка алгоритмов для автоматизированной стандартизации и коррекции неполных данных по реакциям, составляющих большинство в современных базах данных, а также анализ и визуализация больших объемов (миллионы записей) данных по реакциям. Ключевым элементом разрабатываемой нами методологии является подход Конденсированного Графа Реакции (КГР), в рамках которых химическая реакция рассматривается как одна псевдомолекула. Благодаря такому значительному упрощению становится возможным применять для работы с химическими реакциями арсенал методов хемоинформатики, разработанных для работы с индивидуальными молекулами. В рамках данного этапа выполнения проекта нами была поставлена цель дальнейшего развития технологий, преодоление различных их ограничений и применение к новым типам задач. Большое внимание было уделено развитию новых методологий. Так, нами была предложена принципиально новая технология к построению атомно-атомного отображений, основанная на применении методов машинного обучения. Корректное атомно-атомное отображение требуется для решения самых различных задач анализа химических реакций. Было показано, что данная технология сочетает в себе достаточно высокую точность и скорость работы. Качественное и удобное хранение информации о реакциях требует приведения реакции к стандартному виду. Был разработан протокол стандартизации реакций, включающий стандартизацию молекул, приведение к стандартному виду солей и цвиттерионов, а также определение пропущенных реагентов и продуктов. Был существенно доработан разработанный ранее алгоритм определения пропущенных реагентов и продуктов. Кроме того, была разработана методология оценки качества получающихся уравнений реакции. Проверка разрабатываемого подхода на наборе реакций, извлеченных из баз данных, показала, что можно восстанавливать пропущенные реагенты и продукты в более 95% случаев. В ряде случаев, однако, для этого требуется ввод дополнительной информации. Большая работа была посвящена дальнейшему совершенствованию разработанного ранее программного обеспечения. Был существенно переработан алгоритм для инкрементального создания карт GTM. Полностью переработана программа для статистического анализа реакционной способности защитных групп. В последней переработана и усовершенствована логика определения защитных и функциональных групп, а также способа их трансформации. Создан интерфейс для доступа к результатам такого анализа в виде интерактивных таблиц анализа реакционной способности, подобных таблицам реакционной способности в книге Грин «Защитные группы в синтетической химии». Разработаны подходы, позволяющие проводить классификацию реакций по типам. Один из них основан на методе понижения размерности GTM и может быть использован для визуализации и анализа пространств химических реакций, а также для визуального выявления схожих групп реакций на карте. Другой подход основан на применении сигнатур химических реакций и выявлении реакций, имеющих общий реакционный центр. Показано, что в ряде случаев разные с точки зрения химика реакции, имеют общий реакционный центр. Наконец, третий подход основан на использовании сетей Хопфилда для проверки принадлежности объекта определенным классам. Этот подход может использоваться для классификации реакций по типам. Был продолжен сбор данных по кинетическим и термодинамическим характеристикам реакций. За 2017 год была собрана из литературы информация для 15000 записей по кинетическим характеристикам реакций типа SN1, SN2, циклоприсоединения, гидролиза, а также около 2000 данных по константам равновесия реакций депротонирования. Кроме того, был подготовлен для дальнейшего моделирования набор данных из почти 40 000 реакций по гидрированию органических соединений на основе данных, извлеченных из базы данных Reaxys. С использованием полученных данных были построены модели для предсказания констант скорости реакций моно- и бимолекулярного нуклеофильного замещения, циклоприсоединения, а также параметров уравнения Аррениуса для реакций циклоприсоединения. Кроме того, была построена модель для предсказания констант равновесия реакций депротонирования. Были проведены некоторые технологические доработки подходов моделирования. Полученные в рамках проекта модели опубликованы на сервере лаборатории cimm.kpfu.ru. 5-7 июля 2017 г. была проведена традиционная Третья летняя школа-конференция по хемоинформатике в КФУ. Всего в школе приняло 113 участников, из них 19 иностранных ученых (в том числе 4 участника проекта), 34 российских ученых (из них 22 молодых ученых), а также 57 аспирантов и студентов.

 

Публикации

1. Жохова Н.И., Баскин И.И. Energy-Based Neural Networks as a Tool for Harmony-Based Virtual Screening Molecular Informatics, Vol. 36, Is. 11, No article 1700054 (год публикации - 2017) https://doi.org/10.1002/minf.201700054

2. Нугманов Р.И., Маджидов Т.И., Антипин И.С., Варнек А.А. Автоматическое определение пропущенных реагентов и продуктов в уравнении химических реакций Ученые записки Казанского университета. Серия Естественные науки, - (год публикации - 2017)

3. Полищук П., Маджидов Т., Гимадиев Т., Бодров А., Нугманов Р., Варнек А. Structure–reactivity modeling using mixture-based representation of chemical reactions Journal of Computer-Aided Molecular Design, Vol. 31, Is. 9, P. 829-839 (год публикации - 2017) https://doi.org/10.1007/s10822-017-0044-3

4. Хайруллина А.И., Маджидов Т.И., Нугманов Р.И., Афонина В.А., Баскин И.И., Варнек А. Подход для создания атом-атомного отображения с использованием наивного байесовского классификатора Ученые записки Казанского университета. Серия Естественные науки, - (год публикации - 2017)

5. Баскин И.И., Маджидов Т.И., Антипин И.С., Варнек А.А. Искусственный интеллект в синтетической химии: достижения и перспективы Russian Chemical Reviews, V. 86, Is. 11, P. 1127 - 1156 (год публикации - 2017) https://doi.org/10.1070/RCR4746

6. Полищук П. Interpretation of Quantitative Structure−Activity Relationship Models: Past, Present, and Future Journal of Chemical Information and Modeling, Vol. 57, Is. 11, P. 2618-2639 (год публикации - 2017) https://doi.org/10.1021/acs.jcim.7b00274


Аннотация результатов, полученных в 2018 году
Данный проект является продолжением начатого в 2014 году проекта «Моделирование органических и метаболических реакций методами хемоинформатики: от эмпирической к предсказательной химии». В рамках данного этапа выполнения проекта нами была поставлена цель завершить все начатые в проекте исследования и закончить разработку соответствующего программного обеспечения. В первую очередь, была завершена разработка картриджа данных CGR-DB, который позволяет хранить информацию, оперировать ею (добавлять, удалять, объединять, разделять записи) и проводить поиск по молекулам и реакциям. Картридж может быть легко объединен с СУБД PostgreSQL через объектно-реляционную модель (ORM) для создания полноценной базы данных. Для молекул и реакций доступен поиск по структуре, по подструктуре, по подобию. Кроме того, с использованием поиска по структуре, подструктуре и подобию молекул можно искать реакции (например, найти реакции, в которых в продукте имеется нафтильный фрагмент). Был разработан клиентский веб-интерфейс приложения, доступный на сайте лаборатории cimm.kpfu.ru. Следует отметить, что с помощью данного инструмента на регулярной основе осуществляется сбор данных по реакциям, для чего имеется соответствующий инструмент ввода данных. Разработанные в 2017 году технологии стандартизации реакций были усовершенствованы и объединены в общий протокол стандартизации и чистки реакций. Этот протокол требуется для подготовки наборов данных по химическим реакциям для моделирования, а также для стандартизации реакций и запросов для эффективной работы базы данных химических реакций. Инструменты стандартизации были включены в библиотеку CIMMtools для моделирования. На основе предложенной ранее новой методологии построения атомно-атомных отображений, базирующейся на применении методов машинного обучения, была разработан способ построения атом-атомных отображений (ААО) с использованием искусственных нейронных сетей. Было показано, что он позволяет строить ААО, превосходящие по качеству не только получаемые с помощью наивного байесовского классификатора (разработано в рамках предыдущего этапа проекта), но и сопоставимые или даже превосходящие по качеству существующие коммерческие программы. Оптимизированный для обработки больших объемов данных инкрементальный вариант метода GTM был использован для анализа и визуализации эволюции синтетической химии во времени (на основе набора из более чем 3 млн. реакций (1976-2016 гг.), извлеченных из патентов). Результат анализа показал, что современный тренд развития синтетической химии представлен в большей степени развитием существующих методов синтеза, нежели созданием принципиально новых. Кроме того, достаточное внимание было уделено развитию новых методологий. С использованием представления пар сопоставленных молекул (Matched Molecular Pair) в виде Конденсированного графа реакции были созданы модели, предсказывающие, будет ли данная замена групп биоизостерной для одной из 12 биомишеней. Был разработан подход, который позволяет проводить замены функциональных групп, с последующей оценкой замен разработанными моделями. Таким образом, для любой целевой молекулы могут быть сгенерированы биоизостерные аналоги. Подход был ретроспективно валидирован. Была разработана методология для предсказания функционально связанных свойств химических соединений на примере кислотности и таутомерного равновесия. Было выведено уравнение, позволяющее находить коэффициенты линейной регрессии, предсказывающей кислотность таутомерных форм таким образом, чтобы их разность была равна логарифму константы равновесия. Показано, что с использованием данного подхода можно построить модель, которая одновременно способна предсказывать значения констант кислотности и таутомерного равновесия практически без потери качества. Был разработан подход для предсказания оптимальных условий реакции гидрирования, основанный на ранжировании возможных условий таким образом, чтобы условия проведения реакции оказались в верхней части списка. С использованием данных по каталитическому гидрированию, подготовленных в рамках предыдущего этапа проекта, была подготовлена модель для предсказания оптимальных условий реакции каталитического гидрирования. Была осуществлена перспективная и ретроспективная валидация модели. Модель предсказывает примерный диапазон температур, давлений, тип катализатора, а также тип добавок, которые необходимы для проведения целевой реакции. Модель была использована при разработке программного обеспечения для предсказания оптимальных условий проведения реакций каталитического гидрирования с интерфейсом командной строки. Она опубликована на сайте лаборатории и доступна по адресу cimm.kpfu.ru. Был разработан подход для классификации реакций по типам с использованием ограниченной машины Больцмана (RBM); показано, что этот подход может быть полезным при предсказании типов реакций, однако использование реакционных сигнатур является более надежным способом классификации реакций по типам. Был продолжен сбор данных по кинетическим и термодинамическим характеристикам реакций. За 2018 год была собрана из литературы информация для около 12000 записей по кинетическим характеристикам реакций типа SN1, реакций нуклеофильного замещения в ароматическом ядре, гидролиза, а также для более чем 2500 записей по константам равновесия реакций депротонирования. Из базы данных по реакциям из патентов была извлечена информация об условиях проведения реакций. Итого была собрана информация о 1 808 240 реакций из патентов с условиями их проведения и иной информацией. С использованием собранных данных была подготовлена модель для предсказания константы скорости гидролиза сложных эфиров. В связи со сбором новых данных по реакциям, развитием технологий подготовки и стандартизации реакций, а также с учетом требований, возникающих при публикации моделей на сервере, были переработаны и перестроены все модели кинетических и термодинамических характеристик реакций. Модели, показавшие хорошее качество, доступны на сервере. Были разработаны модели для предсказания селективности SN2/E2- и SN2/SN1-реакций с использованием построенных ранее моделей для реакций SN2, E2 и SN1. 5-7 апреля 2018 г. была проведена традиционная Третья международная школа-семинар «От эмпирической к предсказательной химии». Всего в школе приняло участие 96 участников, из них 13 иностранных ученых (в том числе 5 участника проекта), 29 российских ученых, а также 54 аспирантов и студентов.

 

Публикации

1. Гимадиев Т., Маджидов Т., Тетко И., Нугманов Р., Кащук Ю., Климчук О., Бодров А., Полищук П., Антипин И., Варнек А. Bimolecular Nucleophilic Substitution Reactions: PredictiveModels for Rate Constants and Molecular Reaction PairsAnalysis Molecular Informatics, V. 37, 1800104 (год публикации - 2018) https://doi.org/10.1002/minf.201800104

2. Главатских М., Маджидов Т., Баскин И.И., Хорват Д., Нугманов Р., Гимадиев Т., Марку Ж., Варнек А. Visualization and Analysis of Complex Reaction Data: The Case of Tautomeric Equilibria Molecular Informatics, V. 37, Is. 9, 1800056 (год публикации - 2018) https://doi.org/10.1002/minf.201800056

3. Главатских М., Маджидов Т., Хорват Д., Нугманов Р., Гимадиев Т., Малахова Д., Марку Ж., Варнек А. Predictive Models for Kinetic Parameters of Cycloaddition Reactions Molecular Informatics, V. 37, 1800077 (год публикации - 2018) https://doi.org/10.1002/minf.201800077

4. Занков Д. В., Маджидов Т. И. , Саттаров Б. Б., Гимадиев Т. Р., Нугманов Р. И., Баскин И. И., Варнек А. А. Взаимосвязанные статистические модели для оценки констант равновесия и кислотности таутомеров Бутлеровские сообщения, Т.56. №10. С.26-37 (год публикации - 2018)

5. Т.И. Маджидов, А.А. Хакимова, Р.И. Нугманов, К. Мюллер, Ж. Марку, А. Варнек Prediction of Aromatic Hydroxylation Sites for Human CYP1A2 Substrates Using Condensed Graph of Reactions BioNanoScience, V. 8, Is. 1, pp. 384–389 (год публикации - 2018) https://doi.org/10.1007/s12668-017-0499-7

6. Т.Р. Гимадиев, Т.И. Маджидов, Р.И.Нугманов, И.И. Баскин, И.С. Антипин, А. Варнек Assessment of Tautomer Distribution Using the Condensed Reaction Graph Approach Journal of Computer-Aided Molecular Design, V. 32, Is. 3, pp 401-414 (год публикации - 2018) https://doi.org/10.1007/s10822-018-0101-6


Возможность практического использования результатов
Данный проект реализован в области химической информатики – междисциплинарной области на стыке химии, информатики и методов искусственного интеллекта. Был разработан подход, который позволяет применять методы машинного обучения и искусственного интеллекта для решения задач синтетической химии. В рамках проекта мы практически завершили создание новой области - информатики химических реакций, которая до нас была представлена отдельными разрозненными работами. Было написано учебное пособие для студентов [1] и обзор [2], показывающие современное состояние области и очерчивающие перспективы. Проблемы оптимизации синтеза решаются, в основном, методом проб и ошибок, а сам процесс оптимизации занимает основную часть времени работы химика-синтетика. Особенно острыми вопросы, связанные с оптимизацией стратегии синтеза, встают в разработке лекарств, когда на ранних этапах разработки требуется быстро выбрать способ синтеза соединения и выбрать оптимальные условия. Разработанные нами «умные» технологии могут предсказывать, какие взять условия (без экспериментального перебора множества вариантов), какая будет ожидаемая скорость реакции (что влияет на время ее проведения и выход). Полученные модели были реализованы в интуитивно понятном интерфейсе на сайте лаборатории cimm.kpfu.ru. В дальнейшем этот интерфейс будет использоваться для публикации новых моделей. Разработанные в проекте вычислительные инструменты способны существенно облегчить жизнь синтетического химика и сэкономить финансовые и временные ресурсы при разработке стратегии синтеза целевого соединения. Была создана уникальная поисковая информационная система для химии, которая позволяет находить реакции и молекулы с помощью запросов, указывающих интересующую структуру, фрагмент или просто схожую молекулу или реакцию. Она обладает преимуществами, связанными с удобством, скоростью и качеством получаемых результатов, в том числе по сравнению с коммерческими аналогами (SciFinder, Reaxys). Разработанные технологии - концепция конденсированного графа и разработанные на его основе инструменты CGRtools (для оперирования информацией о реакциях), CIMMtools (для моделирования реакций) и CGRdb (для хранения и поиска молекул и реакций) - могут быть использованы для разработки новых инструментов, создания новых баз данных и моделей. Эти инструменты доступны по запросу, в настоящее время готовится их публикация в виде открытого исходного кода. Таким образом, все заинтересованные компании и научные группы получат доступ к данным инструментам, что позволит дальше развивать технологии работы с реакциями. Разработками в рамках данного проекта уже пользуются в компании ScienceDataSoftware (США), лаборатории хемоинформатики Университета Страсбурга (Франция), готовится лицензионное соглашение для компании Янсен (Бельгия). Уверены, что открытие исходного кода позволит, с одной стороны, ускорить научные разработки в области моделирования реакций, планирования синтеза, предсказания условий и решении других задач, а, с другой стороны, повысить видимость результатов данного проекта. В группе продолжаются развиваться разработанные технологии для создания инновационных научных продуктов. Электронный лабораторный журнал, прототип которого создан на основе картриджа данных CGRdb, позволит перейти от бумажной формы хранения химической информации к хранению информации в электронной форме в облаке. Этот инструмент позволит не терять полученные данные, получать к ним легкий доступ, публиковать, передавать данные в любом машинно-читаемом виде. Разработанные подходы предсказания и анализа реакций могут быть легко интегрированы в электронный журнал, что позволит создать «интеллектуального помощника химика», типа «Алисы» от компании Yandex, но адаптированного для химических задач. Созданный картридж данных CGRdb может также использоваться для создания базы данных молекул и реакций, изученных в России. Его можно рассматривать как дополнительный инструмент публикации научных результатов, популяризации российской науки и, более широко, цифровизации всей российской химии. Таким образом, данный проект способствует решению задач цифровизации экономики (в части научных исследований в области химии), провозглашенной Президентом России В.В. Путины в Послании Федеральному Собранию 1 марта 2018 года.