Методы машинного обучения и искусственного интеллекта все шире применяются в дизайне лекарств и материалов, медицинской и технической диагностике. Эти методы способны извлекать закономерности на основе множества данных, а потому могут находить сложные и неочевидные взаимосвязи между переменными. С другой стороны, полученные зависимости, построенные на ограниченной выборке, не всегда выявляют фундаментальные законы природы. В результате страдают точность вычислений и качество предсказания на новых данных. В то же время в химии часто известны физические или эмпирические законы, связывающие те или иные характеристики молекул или реакций.
Интернациональный коллектив ученых из Казани, Москвы, Страсбурга и Хоккайдо предложил способ, который позволяет методам машинного обучения использовать фундаментальные химические законы при предсказании свойств молекул. Исследователи рассмотрели проблему прогнозирования характеристик таутомерного равновесия, то есть способности молекул превращаться из одной формы (таутомера) в другую за счет перехода протона с одного атома на другой. Таутомерия — явление обратимой изомерии, когда несколько веществ имеют одинаковый качественный и количественный состав, но отличаются расположением некоторых групп и связей. Она является одним из важнейших явлений в органической химии. Кроме того, таутомерия — ключевой фактор, влияющий на появление мутаций, а также функционирование нуклеиновых кислот, белков и сахаров. По этой причине важно учитывать таутомерные превращения при регистрации новых соединений, компьютерном дизайне новых лекарств и поиске молекул с заданными свойствами.
Известно, что характеристики (например, константа таутомерного равновесия) процесса перехода одной таутомерной формы в другую связаны с кислотностью молекул. Соответствующее уравнение, открытое советским химиком М. И. Кабачником, используется почти во всех хемоинформатических инструментах предсказания константы таутомерного равновесия. Ранее авторы статьи показали, что качество таких расчетов достаточно низкое. Проблема применения уравнения заключается в том, что некоторых таутомеров в равновесии очень мало, и определить их кислотность невозможно. Вероятность ошибки при ее предсказании высока, и получаются неверные результаты.
«Мы пришли к выводу, что нужно создать модель, которая умела бы принимать во внимание уравнение Кабачника и обучалась одновременно на данных по таутомерии и кислотности», — рассказывает руководитель проекта Тимур Маджидов, кандидат химических наук, старший научный сотрудник Казанского федерального университета.
В работе были рассмотрены два варианта действий. В первом случае использовали множественную линейную регрессию, то есть считали, что зависимость кислотности от структуры можно описать линейным законом. Во втором случае для предсказания кислотности использовали нелинейные уравнения, которые в качестве решения предлагали нейронные сети. Обе модели учатся прогнозировать таутомерию с использованием уравнения Кабачника. Оказалось, что если обучать модель только на данных по кислотности, то качество предсказания константы таутомерного равновесия хуже, чем при ее предсказании случайным образом. Результаты изменились, когда ученые объединили подходы. Точность получившейся сопряженной модели совпадает с таковой у лучших моделей, способных, однако, предсказывать только одно свойство. Более того, она работает в случае кислотности таутомерных форм, которых в растворе содержится очень мало, и делает это почти так же хорошо, как и для «обычных» молекул.
Итог исследования — создание вычислительной модели, которая обеспечила более точное нахождение константы кислотности и таутомерии. Авторами была предложена концепция сопряженных моделей QSPR (количественной взаимосвязи структуры и свойств) для одновременного предсказания нескольких функционально связанных характеристик. Подобные модели в будущем позволят осуществлять более точный прогноз физико-химических свойств соединений и параметров химических реакций, а также помогут в поиске новых лекарственных препаратов.