КАРТОЧКА ПРОЕКТА,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 19-71-30020

НазваниеИспользование вероятностных нейроморфных генеративных моделей для развития технологии цифровых двойников нелинейных стохастических систем

РуководительНаумов Алексей Александрович, Кандидат физико-математических наук

Прежний руководитель Устюжанин Андрей Евгеньевич, дата замены: 21.04.2022

Организация финансирования, регионфедеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский университет "Высшая школа экономики", г Москва

Годы выполнения при поддержке РНФ 2019 - 2022 

КонкурсКонкурс 2019 года по мероприятию «Проведение исследований научными лабораториями мирового уровня в рамках реализации приоритетов научно-технологического развития Российской Федерации» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-201 - Искусственный интеллект и принятие решений

Ключевые словаоптимальный транспорт, марковские цепи, многообразия, генеративные модели, вероятностный вывод, глубинное обучение, структурные предсказания, причинные графы, semisupervised learning

Код ГРНТИ28.23.29


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
За последние годы технология цифровых двойников сильно продвинулась по Gartner Hype Cycle (см 2017 и 2018 гг, приложение к заявке). Ожидается, что цифровые двойники, или имитационные модели технологических объектов или процессов, которые помогают следить за состоянием объектов реального мира, будут составлять основу производственных процессов в ближайшем будущем Типовые сценарии их использования включают мониторинг состояний, уровня износа, предсказание аномалий, определения оптимального момента технического обслуживания. В то же время, построение и использование цифровых моделей, основанных на физических закономерностях зачастую приводит к высоким временным и вычислительным затратам в случаях высокой сложности моделируемых систем. Использование нейроморфных генеративных моделей, основанных на технологии генеративных состязательных сетей вариационных автокодировщиков, позволяет снизить вычислительные затраты на работу имитационных моделей на несколько порядков (PMLR 70 (2017) 1263). Нейроморфные генеративные модели хорошо зарекомендовали себя для решения задач уменьшения шума и воспроизведения изображения сверх-разрешения (arXiv:1511.04491, arXiv:1609.04802, arXiv:1612.07919). Несмотря на очевидные преимущества, замена точного симулятора на нейроморфную модель связана с определенными трудностями. Данные подходы пока находятся на сравнительно раннем этапе развития и обладают рядом серьезных недостатков при воспроизведении сложных объектов таких как многомерные последовательности / последовательности изображений, графовые структуры, трехмерные модели или условные последовательности управляющих воздействий. Принципиальной сложностью построения генеративных моделей является подход к их обучению, опирающийся на имеющиеся данные и указания функционального качества работы модели, в виде функции потерь. Изучение особенных случаев этих функций может привести к качественному росту генеративных технологий. Дополнительного изучения требуют случаи учета внешних ограничений для функции потерь генеративной модели. Работа с генеративными моделями сложной конфигурации при наложении ограничений может привести к медленной сходимости процедуры обучения и низкому качеству генеративных моделей. Предлагаемый проект состоит из нескольких тем, нацеленных на развитие методов и технологий машинного интеллекта для снижения барьера сложности решения актуальных задач современной индустрии: 1. Техники масштабируемого семплирования Монте Карло, основанные на марковских цепях 2. Обучение по частично размеченным данным с применением методов восстановления многообразия и кластеризации 3. Использование оптимального транспорта в задачах машинного обучения 4. Построение полунеявных моделей и методов вывода в них 5. Использование сложных функций потерь для обучения условных моделей 6. Исследование многообразий, задаваемых нейросетями 7. Построение причинных графов и интерпретация моделей 8. Применение генеративных моделей для быстрой настройки симуляций реальных событий 9. Разработка быстрых генеративных моделей имитации сложных физических процессов 10. Диагностика и предсказание аномалий с использованием генеративных моделей 11. Построение обратимых генеративных моделей для повышения точности задач реконструкции Первые три темы являются теоретическими наработками, которые будут использованы в более прикладных темах 4-6, которые в свою очередь повлияют на развитие прикладных тем 7-11. Практическая демонстрация работоспособности предложенных методов будет осуществлена на примерах задач международных физических коллабораций - SHiP, OPERA, LHCb, JUNO. Далее эти наработки лягут в основу сервисов и продуктов, которые сотрудники лаборатории планируют использовать для решения индустриальных задач.

Ожидаемые результаты
1. Разработка масштабируемых методов Монте Карло для генерации распределений заданных неявно или имеющих сложную структуру 2 Разработка методов снижения неопределенности для алгоритмов Монте Карло марковских цепей 3. Разработка эффективных алгоритмов восстановления многообразия из большого числа неточных наблюдений 4. Формулировка критерия оптимальности выбора ценовой функции и построение адаптивнай модели Wasserstein-GAN 5. Разработка полу-неявной вероятностной модели, выполняющей нормализацию активаций нейросетей 6. Разработка методов обучения условных генеративных моделей, позволяющих учитывать сложнык функции потерь на этапе обучения 7. Подтверждение или опровержение гипотезы о том, что локальные минимумы функций потерь, заданных нейросетями образуют многообразие низкой размерности 8. Разработка новых методов построения каузальных графов на основе аппарата генеративных моделей 9. Разработка алгоритма, подбора оптимальных физически-мотивированых параметров симуляции на реальные наблюдения. Публикация кода алгоритма с открытом доступом 10. Разработка алгоритма, позволяющего имитировать детальную симуляцию физических процессов без потери качества 11. Разработка и исследованние схемы поиска аномалий в сильно несбалансированных данных, сочетающая в себе сильные стороны многоклассовых и одноклассовых подходов к решению данной задачи 12. Разработка метода построения обратимых генеративных моделей. Иллюстрация данных моделей для задач реконструкции на данных экспериментов SHiP, OPERA, LHCb, JUNO


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2019 году
Тема 1. Техники масштабируемого семплирования Монте Карло, основанные на марковских цепях (#mcmc) Предложены новые методы решения задач динамического программирования с помощью Монте Карло генерации марковских цепей и регрессионных методов с подкреплением. Предложен новый способ оценивания плотности распределения, основанный на аппроксимации логарифма плотности рядом Фурье, коэффициенты которого вычисляются с помощью решения некоторой системы линейных уравнений. Метод оценивания плотности применяется для построения методов Монте Карло Марковских цепей для распределений с известными преобразованиями Фурье. Полученные результаты опубликованы в двух работах, одна из которых принята для публикации в журнале Communications in Mathematical Sciences (Q1 Scopus, Q2 WoS). Тема 2. Обучение по частично размеченным данным с применением методов восстановления многообразия и кластеризации (#manifold) В ходе работы разработан алгоритм структурно-адаптивной оценки многообразий (SAME), основанный на идее структурной адаптации, предложенной в (Hristache01a) и (Hristache01b). Алгоритм итеративно улучшает оценки проекций наблюдаемых точек на многообразие, а также оценивает проекторы на касательные подпространства в оцениваемых точках. В результате алгоритм устойчив к шуму и успешно восстанавливает проекции неточных наблюдений на многообразие. По результатам работы подготовлен препринт (Puchkin19). (Hristache01a) M. Hristache, A. Juditsky, V. Spokoiny, Direct estimation of the index coefficient in a single-index model. Ann. Statist. 29 (2001), no. 3, 595–623. (Hristache01b) M. Hristache, A. Juditsky, J. Polzehl, V. Spokoiny, Structure adaptive approach for dimension reduction. Ann. Statist. 29 (2001), no. 6, 1537–1566. (Puchkin19) N. Puchkin, V. Spokoiny, Structure-adaptive manifold estimation, (2019), ArXiv:1906.05014 Тема 3. Использование оптимального транспорта в задачах машинного обучения (#transport) 1. При помощи разработанного крупнозернистого метода моделирования конформационной подвижности белковых молекул, основанного на решении динамического аналога транспортной задачи Монжа-Канторовича произведено моделирование некоторых белков сложной структуры, в конформационных переходах которых может существенно меняться функция белка, и сравнение результатов с аналогичными результатами, полученными другими методами молекулярного моделирования. Показано, что метод дает существенные вычислительные преимущества по сравнению с ранее разработанными аналогами, использующими менее грубые представления молекулы белка, при этом давая физически адекватные предсказания конформационных движений. Показана возможность его применения к предсказанию возможных трехмерных эволюционных форм белков – «эволюционных переключателей». Результаты оубликованы в журналах Delfino, Yu. Porozov, E. Stepanov, G. Tamazian, V. Tozzini. Structural transition states explored with minimalist coarse grained models: applications to Calmodulin. Frontiers in Molecular Biosciences: Biological Modeling and Simulation. 2019. DOI 10.3389/fmolb.2019.00104. (https://doi.org/10.3389/fmolb.2019.00104) F. Delfino, Yu. Porozov, E. Stepanov, G. Tamazian, V. Tozzini. Evolutionary Switches Structural Transitions via Coarse-Grained Models. J. Comp. Biology. 2019. DOI 10.1089/cmb.2019.0338. (https://doi.org/10.1089/cmb.2019.0338) 2. Мы доказали, что рассматривая постановка задачи domain adaptation при определенном выборе параметрического класса ценовых функций эквивалентна задаче о максимизации правдоподобия. Было также установлено, что рассматриваемая постановка оказывается применимой для решения более широкого класса задач, включающих восстановление групповой динамики под действием внешних факторов. Проведены серии экспериментов на реальных данных, описывающих адаптацию иммунной системы респондентов при смене климатического пояса. Полученные результаты были одобрены специалистами в области иммунологии. Тема 4. Построение полунеявных моделей и методов вывода в них В ходе работы разработан неявный алгоритм Метрополиса-Хастингса. Данный алгоритм может рассматриваться как улучшение любой неявной генеративной модели. Теоретические и практические исследования свойств алгоритма опубликованы на конференции NeurIPS 2019 (https://papers.nips.cc/paper/9544-the-implicit-metropolis-hastings-algorithm). В ходе работы разработан метод для работы с маргинальными распределениями активаций стохастических нейронных сетей. Разработанный метод позволяет использовать предложенный аналог батч-нормализации для приведения маргинальных распределений активаций к стандартной нормальной форме. Тема 5. Использование сложных функций потерь для обучения условных моделей В рамках этой темы были, во-первых,получены теоретические результаты, которые в нескольких частных случаях обобщают результаты (Osokin17: о необходимости для эффективного обучения использования подходящих многообразий низких размерностей), известные ранее только для квадратичных функций потерь, на случай функций потерь вида логарифм правдоподобия. Во-вторых, были разработаны несколько модификаций методов обучения авторегрессионных моделей на основе подхода learning-to-search, позволяющих улучшить эти методы в задачах автоматического перевода (метрика METEOR), упорядочивания перемешанных слов (метрика на основе расстояния Кендалла-Тау), синтез кода на языке python по текстовому описанию (метрика BLEU). Результаты были доложены на сателлитном мероприятии конференции NeurIPS 2019 (Saparina19). (Osokin17) A. Osokin, F. Bach and S. Lacoste-Julien. On Structured Prediction Theory with Calibrated Convex Surrogate Losses. Advances in Neural Information Processing Systems (NIPS), 2017. (Saparina19) Cost-Sensitive Training for Autoregressive Models. I. Saparina, A. Osokin, NeurPS 2019 workshop, Women in Machine Learning 2019. Тема 6. Исследование многообразий, задаваемых нейросетями Эмпирически показано существование путей с приблизительно постоянным значением функционала ошибки между оптимумами нейронных сетей различного вида, в том числе между локальными оптимумами, найденными с помощью оптимизации на основе полного градиента, и между приближенными локальными оптимумами с разной обобщающей способностью. Также показана неединственность одномерных соединяющих кривых и существование многомерных соединяющих многообразий. Тема 7. Построение причинных графов и интерпретация моделей В работе (Gadetsky20) был предложен метод вариационной оптимизации (Staines12), использующий распределение Плакетта-Люса в качестве вариационного распределения. Метод обобщает полученные ранее результаты для категориальных распределений (Grathwohl18), предлагая эффективный способ снижения дисперсии используемых при оптимизации оценок градиента. Реалазиция метода доступна по адресу https://github.com/agadetsky/pytorch-pl-variance-reduction. Полученный метод был применен для поиска топологической сортировки причинных графов в случае линейных моделей для непрерывных данных и категориальных данных, позволяя на основе топологической сортировки графа эффективно восстановить матрицу смежности искомого графа. (Gadetsky20) A. Gadetsky, K. Struminsky, C. Robinson, N. Quadrianto, & D. Vetrov. Low-variance Black-box Gradient Estimates for the Plackett-Luce Distribution. In proceedings of the AAAI Conference on Artificial Intelligence 2020. (Staines12) J. Staines, & D.Barber. Variational optimization. arXiv preprint, 2012. (Grathwohl18) W. Grathwohl, D. Choi, Y. Wu, G. Roeder, G., & D. Duvenaud. Backpropagation through the void: Optimizing control variates for black-box gradient estimation. In ICLR 2018. Тема 8. Применение генеративных моделей для быстрой настройки симуляций реальных событий (#pythiaGAN) Было предложено улучшение подхода настройки параметров симуляторов - состязательной вариационной оптимизации - за счет замены дивергенции Дженсона-Шенона на адаптивную метрику. Доказана теорема о том, что адаптивная метрика является полноценной дивергенцией. Показано преимущество использования данной метрики для решения задач настройки симуляторов и практические способы использования данной метрики. Результат на модельных экспериментах опережает аналоги в несколько раз. Опубликован код https://gitlab.com/mborisyak/adversarial-optimization/ и препринт статьи ( https://arxiv.org/abs/1912.00520 ), которая будет подана в один из высокорейтинговый журналов в 2020 году. Тема 9. Разработка быстрых генеративных моделей имитации сложных физических процессов (#fastsim) В отчётный период был проведён анализ имеющихся решений и наработок по построению генеративных моделей для быстрой симуляции данных калориметра. Были созданы модели для быстрой генерации откликов детекторов как на основе данных детальной симуляции, так и на основе использования реально наблюдаемых данных. Исследовался подход с использованием графовых генеративных моделей. Была выдвинута гипотеза, что разделение процедуры обучения на воспроизведение стохастической и систематической компонент распределений может повысить контролируемую точность воспроизведения моделью данных. Успех данного подхода был продемонстрирован для стохастической компоненты подхода. Тема 10. Диагностика и предсказание аномалий с использованием генеративных моделей (#anomalies) В отчётный период был разработан метод выявления аномалий с использованием нормализующих потоков. Этот метод позволил повысить качество прогнозирования аномалий по большинству стандартных наборов данных. По итогам работы подготовлена публикация, которую планируется отправить в журнал до конца года. Тема 11. Построение обратимых генеративных моделей для повышения точности задач реконструкции (#reconstruction) Опубликован набор данных эксперимента OPERA: http://opendata.cern.ch/search?page=1&size=20&q=opera, http://opendata.cern.ch/visualise/events/opera Описание набора данных представлено в виде доклада на конференции CHEP-2019. Улучшен алгоритм реконструкции нейтральных частиц для детектора LHCb, представлен на конференции ACAT2019 и принят к публикации в scopus-индексируемом журнале. Разработан метод реконструкции частиц новой физики с помощью эмульсионного детектора SHiP, представлен на конференции ACAT2019 и принят к публикации в scopus-индексируемом журнале.

 

Публикации

1. Delfino F, Прозоров Ю, Степанов Е, Тамазян Г, Tozzini V Evolutionary Switches Structural Transitions via Coarse-Grained Models JOURNAL OF COMPUTATIONAL BIOLOGY, Volume 27, Number 0, 2020 (год публикации - 2019).

2. Delfino F, Прозоров Ю, Степанов Е, Тамазян Г, Tozzini V Structural transition states explored with minimalist coarse grained models: applications to Calmodulin Frontiers in Molecular Biosciences, - (год публикации - 2019).

3. Белавин В, Устюжанин А Electromagnetic shower generation with Graph Neural Networks Journal of Physics: Conference Series, - (год публикации - 2019).

4. Беломестный Д. В., Иосипой Л. С. ОБ ОЦЕНКЕ ПЛОТНОСТИ РАСПРЕДЕЛЕНИЯ С ПОМОЩЬЮ РЯДА ФУРЬЕ Математическая теория управления, Выпуск: 82 (год публикации - 2019).

5. Беломестный Д, SCHOENMAKERS J, Спокойный В, ZHARKYNBAY B OPTIMAL STOPPING VIA REINFORCED REGRESSION Communications in Mathematical Sciences, - (год публикации - 2019).

6. Боолдырев А, Чекалина В, Ратников Ф Machine Learning approach to boosting neutral particles identification in the LHCb calorimeter Journal of Physics: Conference Series - IOPscience, - (год публикации - 2019).

7. Гадецкий А.В., Струминский К.А., Робинсон К.,Квадрианто Н., Ветров Д.П. Low-variance Black-box Gradient Estimates for the Plackett-Luce Distribution Thirty-fourth AAAI Conference On Artificial Intelligence Proceedings, - (год публикации - 2020).

8. Неклюдов К.О., Егоров Е.Е., Ветров Д.П. The Implicit Metropolis-Hastings Algorithm Advances in Neural Information Processing Systems 32 (NIPS 2019), Advances in Neural Information Processing Systems 32, Curran Associates, Inc., pp. 13932--13942 (год публикации - 2019).

9. Чекалина В, Орлова Е, Ратников Ф, Ульянов Д, Устюжанин А, Захаров Е Generative Models for Fast Calorimeter Simulation: the LHCb case EPJ Web of Conferences, vol 214, article 02034 (год публикации - 2019).

10. Широбоков С, Устюжанин А, Голутвин А Accelerating dark matter search in emulsion SHiP detector by deep learning Journal of Physics: Conference Series, - (год публикации - 2019).


Аннотация результатов, полученных в 2020 году
Тема 1. Техники масштабируемого семплирования Монте Карло, основанные на марковских цепях (#mcmc) Предложен новый метод снижения дисперсии для аддитивных функционалов от цепей Маркова, основанный на минимизации оценки асимптотической дисперсии по классу контрольных переменных. Результаты опубликованы в D. Belomestny, E. Moulines, L. Iosipoi, A. Naumov, S. Samsonov, Variance reduction for Markov chains with application to MCMC, Statistics and Computing, 30, 973-997, 2020 DOI: http://dx.doi.org/10.1007/s11222-020-09931-z Мы изучили нерегулярные линейные дифференциальные уравнения в постановке [Friz and Hairer, Springer, 2014, глава 12]. На основе стохастического представления решения уравнения нерегулярной части мы предложили алгоритм регрессии Монте-Карло для пространственно-временного приближения решения. Результатом исследования является статья Ch. Bayer, D. Belomestny, M. Redmann, S. Riedel, J. Schoenmakers, Solving linear parabolic rough partial differential equations, Journal of Mathematical Analysis and Applications, 2020 (490), DOI: https://doi.org/10.1016/j.jmaa.2020.124236 Предложен новый алгоритм взвешенной стохастической сетки для аппроксимации задач динамического программирования. Результаты исследования опубликованы в ведущем журнале по финансовой математике, D. Belomestny, М. Kaledin and J. Schoenmakers, Semi-tractability of optimal stopping problems via a weighted stochastic mesh algorithm, Mathematical Finance, Vol. 30. No. 4. P. 1591-1616, DOI: 10.1111/mafi.12271. Предложен новый подход к использованию алгоритмов MCMC для распределений с аналитически известными преобразованиями Фурье и, в частности, для распределений с тяжелыми хвостами. Результаты опубликованы в ведущем журнале по вычислительной статистике D. Belomesty, L. Iosipoi, Fourier transform MCMC, heavy-tailed distributions, and geometric ergodicity, Mathematics and Computers in Simulation 181 (2021) 351–363, https://doi.org/10.1016/j.matcom.2020.10.005. Тема 2. Обучение по частично размеченным данным с применением методов восстановления многообразия и кластеризации (#manifold) В ходе работы исследованы теоретические свойства алгоритма восстановления многообразия по выборке из неточных наблюдений. Результаты представлены в препринте N. Puckin, V. Spokoiny, Structure-adaptive manifold estimation, https://arxiv.org/abs/1906.05014. Предложен способ решения задачи кластеризации k-средних на основе подхода медианы средних. Получены неасимптотические оценки на качество решения при условии конечной дисперсии распределения. Подготовлен препринт Klochkov, Y., Kroshnin, A., & Zhivotovskiy, N. (2020). Robust k-means Clustering for Distributions with Two Moments. arXiv preprint arXiv:2002.02339. Тема 3. Использование оптимального транспорта в задачах машинного обучения (#transport) С помощью методов крупнозернистого моделирования на основе оптимального транспорта удалось частично решить задачу выяснения возможного механизма S-глутатионилирования (связывания глутатиона - трипептида γ-глутамилцистеинилглицина - с тиоловой группой цистеина) Na-K-атфазы (аденозинтрифосфатазы) – трансмембранного белка, основная функция которого – «натрий-калиевый насос», т.е. перенос против электростатически сил внутрь клетки ионов К+, а во внешнюю среду из цитоплазмы - ионов Na+. Результаты опубликованы в E. Stepanov et al, Na/K-ATPase Glutathionylation: in silico Modeling of Reaction Mechanisms, Bioinformatics Research and Applications, Springer, 2020, https://doi.org/10.1007/978-3-030-57821-3_36 Тема 4. Построение полунеявных моделей и методов вывода в них (#semiimplicit) В рамках данной темы был предложен фреймворк, который описывает широкий спектр алгоритмов МСМС, и формулируем набор “трюков”, которые можно использовать как принципы дизайна при разработке новых алгоритмов МСМС. Таким образом, предложенный фреймворк дает унифицированный взгляд на большое количество известных алгоритмов МСМС, который способствует разработке эффективных модификаций. Тема 5. Использование сложных функций потерь для обучения условных моделей В рамках данной темы велась работа над одной из наиболее подходящих к запланированному исследованию конкретных задач, где по текстовому описанию задачи на английском языке требуется построить выполняемый SQL запрос. В этом проекте была разработана новая авторегрессионная нейросетевая модель для синтеза SQL запросов через промежуточное представление Question Decomposition Meaning Representation (QDMR). Тема 6. Исследование многообразий, задаваемых нейросетями (#lossmanifold) Мы провели широкое сравнение одномодовых и мультимодовых методов ансамблирования, а также исследовали вид зависимости качества стандартного мультимодового ансамбля от числа сетей в нем, размера этих сетей и общего числа параметров в модели. Также мы предложили новые метрики для сравнения ансамблей и два новых метода ансамблирования, использующих мультимодальность в пространстве данных вместо пространства весов. На основе проведенных исследований методов ансамблирования нейронных сетей мы также разработали новый алгоритм обучения с подкреплением для задач с непрерывными действиями В рамках исследования эффекта двойного спуска, был воспроизведен и проанализирован данный эффект по размеру модели и по итерациям обучения. Была установлена связь между поведением тестовой ошибки и теоретико-информационными характеристиками весов, послужившая основой для разработки гипотезы о трех фазах обучения нейросетей, обосновывающей эффект двойного спуска по итерациям обучения. Для оптимизации в пространствах большой размерности разработан метод стохастической координатной оптимизации. Проведено теоретическое исследование скорости сходимости метода, доказывающее преимущество использования блоков координат по сравнению с однокоординатным подходом. Тема 7. Построение причинных графов и интерпретация моделей (#causal) В рамках данной темы мы занимались исследованием приложений ранее разработанного метода оптимизации в классе распределений Плакетта-Люса. Мы рассмотрели задачу построения приближенных решений задачи о коммивояжере и получили результаты, уступающие современным решениям на основе авторегрессионных политик. Помимо этого, мы рассмотрели задачу немонотонной генерации, оценивая порядок генерации с помощью распределения Плакетта-Люса. Без дополнительной информации о порядке генерации модель восстанавливала стандартные авторегрессионные модели, а также оказалась способна выучить нетривиальные порядки генерации при наличии соответствующей частичной разметки. Тема 8. Применение генеративных моделей для быстрой настройки симуляций реальных событий (#pythiaGAN) Закончена работа по описанию адаптивной дивергенции для распределений и показаны способы ее практического использования для настройки параметров симуляторов. Доказаны основополагающие теоремы, определяющие способы построения и использования адаптивной дивергенции. Продемонстрированы реализации дивергенции за счет использования бустинга над решающими деревьями (дискретный случай), и стохастического dropout (непрерывный случай). Практические применения предложенного подхода включали задачи оптимизации параметров генератора Pythia для симуляции столкновений электронов с позитронами, и для задачи выявления скрытых параметров наблюдаемых событий. Тема 9. Разработка быстрых генеративных моделей имитации сложных физических процессов (#fastsim) Была разработана концепция специфического использования генеративных моделей для сокращения цикла разработки и оптимизации новых детекторов. Концепция была практически реализована в рамках задачи улучшения калориметра детектора LHCb, были получены предварительные оценки качества различных конфигураций. Были получены количественные оценки физического качества быстрых генеративных моделей, разработанных годом ранее в рамках данного проекта. Тема 10. Диагностика и предсказание аномалий с использованием генеративных моделей (#anomalies) Предложен новый подход к сбору данных в экспериментах естественнонаучного цикла. Данный подход основан на интенсивном использовании GPU вместо CPU и позволяет легко интегрировать результаты и подходы, разработанные в данном проекте, в программный комплекс эксперимента LHCb (CERN) и других экспериментов. Подход принят за основу советом коллаборации LHCb и будет использован для сбора данных в коллайдере с 2022 года. Собраны данные по расположению галактических скоплений из различных источников, предложен и опубликован метод их кластеризации. Тема 11. Построение обратимых генеративных моделей для повышения точности задач реконструкции (#reconstruction) В таких областях, как физика и инженерия, многие процессы моделируются с помощью недифференцируемых симуляторов, исключающих возможности явной оценки вероятности на исходные параметры. Развита методика построения дифференцируемых суррогатных моделей работы детектора. В рамках этой методики предложен новый метод градиентной оптимизации закрытых (black-box) симуляторов с использованием дифференцируемых локальных суррогатных моделей. Продемонстрирована эффективность данного подхода на примере оптимизации конструкции элемента детектора SHiP, экранирующей чувствительные элементы детектора от потока высокоэнергетических частиц. В результате численного эксперимента наш подход показал эффективность на 25% превышающую эффективность аналогов.

 

Публикации

1. Аайдж Р., Устюжанин А. и др. Allen: A high level trigger on GPUs for LHCb Computing and Software for Big Science, Comput Softw Big Sci 4, 7 (2020) (год публикации - 2020).

2. Ашуха А., Лыжов А., Молчанов Д., Ветров Д. Pitfalls of In-Domain Uncertainty Estimation and Ensembling in Deep Learning Proceedings of the 8th International Conference on Learning Representations (ICLR 2020), https://openreview.net/pdf?id=BJxI5gHKDr (год публикации - 2020).

3. Байер К., Беломестный Д., Редман М., Ридел С., Шоенмакерс Д. Solving linear parabolic rough partial differential equations Journal of Mathematical Analysis and Applications, Volume 490, Issue 1, 1 October 2020, 124236 (год публикации - 2020).

4. Беломестный Д., Иосипой Л. Fourier transform MCMC, heavy-tailed distributions, and geometric ergodicity Mathematics and Computers in Simulation, 181 (2021) 351–363 (год публикации - 2020).

5. Беломестный Д., Иосипой Л., Мулине Э., Наумов А., Самсонов В. Optimal Stopping of McKean-Vlasov Diffusions via Regression on Particle Systems Statistics and Computing, Stat Comput 30, 973–997 (2020) (год публикации - 2020).

6. Беломестный Д., Каледин М., Шоенмакерс Д. Semitractability of optimal stopping problems via a weighted stochastic mesh algorithm Mathematical Finance., Vol. 30. No. 4. P. 1591-1616. (год публикации - 2020).

7. Беломестный Д., Шоенмакерс Д. Optimal Stopping of McKean-Vlasov Diffusions via Regression on Particle Systems SIAM Journal on Control and Optimization, 2020, Vol. 58, No. 1 : pp. 529-550 (год публикации - 2020).

8. Болдырев А., Деркач Д., Ратников Ф., Шевелев А. ML-assisted versatile approach to Calorimeter R&D Journal of Instrumentation, 2020 JINST 15 C09030 (год публикации - 2020).

9. Борисяк М, Гаинцева Т, Устюжанин А Adaptive divergence for rapid adversarial optimization PeerJ Computer Science, PeerJ Computer Science 6:e274 (год публикации - 2020).

10. Де Леллис Г., Дмитриевский С., Галац Г., Лаваса А., Шимко Т., Цанакцидис И. и Устюжанин А. Dataset of tau neutrino interactions recorded by OPERA experiment EPJ Web of Conferences, EPJ Web of Conferences 245, 08013 (2020) (год публикации - 2020).

11. Зароднюк А, Трофимова Э., Соловьев А, Градобоев Д Galaxy Clusters Reconstruction Journal of Physics: Conference Series, - (год публикации - 2021).

12. Кузнецов А., Швечиков П., Гришин А., Ветров Д. Controlling Overestimation Bias with Truncated Mixture of Continuous Distributional Quantile Critics Proceedings of Machine Learning Research, PMLR, Vol. 119. 2020. P. 5556-5566 (год публикации - 2020).

13. Лобачева Е., Чиркова Н., Кодрян М., Ветров Д. On Power Laws in Deep Ensembles NeurIPS Proceedings, - (год публикации - 2020).

14. Молчанов Д., Лыжов А., Молчанова Ю., Ашуха А., Ветров Д. Greedy Policy Search: A Simple Baseline for Learnable Test-Time Augmentation Proceedings of Machine Learning Research, Volume 124: 36th Conference on Uncertainty in Artificial Intelligence (UAI), 2020., Proceedings of Machine Learning Research, Volume 124: 36th Conference on Uncertainty in Artificial Intelligence (UAI), 2020. P. 1308-1317. 08.2020 (год публикации - 2020).

15. Неклюдов К., Веллинг М., Егоров Е., Ветров Д. Involutive MCMC: One Way to Derive Them All Proceedings of Machine Learning Research, PMLR 119:7273-7282 (год публикации - 2020).

16. Ратников Ф Using machine learning to speed up and improve calorimeter R&D Journal of Instrumentation, 2020 JINST 15 C05032 (год публикации - 2020).

17. Ратников Ф Generative Adversarial Networks for LHCb Fast Simulation EPJ Web of Conferences, EPJ Web of Conferences 245, 02026 (2020) (год публикации - 2020).

18. Ратников Ф. , Деркач Д., Болдырев А. , Шевелев А. , Факанов П. , Матюшин Л. Using machine learning to speed up new and upgrade detector studies: a calorimeter case EPJ Web of Conferences, EPJ Web of Conferences 245, 02019 (2020) (год публикации - 2020).

19. Родоманов А., Кропотов Д. A Randomized Coordinate Descent Method with Volume Sampling SIAM Journal on Optimization, SIAM Journal on Optimization, 2020, Vol. 30, No. 3 : pp. 1878-1904 (год публикации - 2020).

20. Сергеев Ф., Джайн Н., Кнунянц И., Костенков Г., Трофимова Е. Fast simulation of the LHCb electromagnetic calorimeter response using VAEs and GANs Journal of Physics: Conference Series, - (год публикации - 2021).

21. Соловьев Я., Островерхова Д., Тамазян Г., Домнин А., Анашкина А., Путрушанка И., Степанов Е., Порозов Ю. Na/K-ATPase Glutathionylation: in silico Modeling of Reaction Mechanisms Lecture Notes in Bioinformatics, ISBRA 2020, LNBI 12304, pp. 372–380, 2020 (год публикации - 2020).

22. Широбоков C., Белавин В, Каган М, Устюжанин А, Байдин А Differentiating the Black-Box: Optimization with Local Generative Surrogates NeurIPS Proceedings, - (год публикации - 2020).


Аннотация результатов, полученных в 2021 году
Тема 1. Техники масштабируемого семплирования Монте Карло, основанные на марковских цепях (#mcmc) Разработан метод снижения дисперсии в алгоритмах МСМС в случае, когда динамика Марковской цепи задается алгоритмами типа SGLD (Stochastic Gradient Langevin Dynamics) и вариациями (SGLD-FP, SAGA). В данных алгоритмах градиент вычисляется не по всей выборке, а лишь по случайной подвыборке (батч). В таком случае в алгоритме появляется дополнительная случайность, которая значительно усложняет теоретический анализ алгоритмов. Изучены теоретические свойства данного алгоритма и протестированы на различных примерах. Результаты опубликованы в журнале SIAM\ASA Journal of UQ (Q1 Scopus). Тема 2. Обучение по частично размеченным данным с применением методов восстановления многообразия и кластеризации (#manifold) Была предложены алгоритмы прогнозирования временных рядов, основанные на восстановлении скрытого многообразия. Изучены теоретические свойства минимизаторов эмпирического риска в пространстве многообразий. Получены неасимптотические верхние оценки на их избыточный риск в случае, когда наблюдения не являются простой выборкой. Был предложен робастный способ решения задачи кластеризации k-средних в гильбертовом пространстве для случая тяжелых хвостов распределения. Метод основан на использовании медианы средних. Были получены неасимптотические оценки на точность решения, совпадающие с оценками для субгауссовского случая. Тема 3. Использование оптимального транспорта в задачах машинного обучения (#transport) Получено соотношение между расстояниями Буре-Вассерштейна и Фробениуса. Этот результат является одним из ключевых для валидации применимости процедуры multiplier bootstrap. Был выложен препринт. Экспериментально проверена гипотеза о примениости расстояний Буре-Вассерштейна для анализа single-cell Hi-C данных. Доказано, что оценка типа Талаграна для барицентров вероятностных мер эквивалентна неравенству Бляшке-Сантало для нескольких функций, последнее доказано при некоторых дополнительных предположениях о структуре мер. Рассмотрена задача в модификации Маккэна для мультимаргинальных распределений. Тема 5a. Нейронные сети для анализа и генерации исходных кодов (#dlforcode) В ходе проекта проведено эмпирическое сравнение нескольких подходов к учету синтаксической структуры исходного кода в архитектуре Трансформер и выявлен наиболее эффективный подход — применение модели с механизмом внимания к обходу синтаксического дерева в глубину. Данный подход достиг лучшего качества, чем другие рассмотренные подходы, в двух задачах (автодополнение кода и поиск и исправление ошибки в программе) для двух языков программирования (Python и JavaScript); в еще одной задаче (генерация имени функции) он показал такие же результаты, как другие подходы, для обоих языков. Также в ходе работы разработан механизм динамических векторных представлений для обработки переменных в рекуррентных нейронных сетях. В экспериментах показано превосходство разработанного подхода над стандартной моделью в двух задачах (автодополнение кода и поиск и исправление ошибки в программе) на двух языках программирования (Python и JavaScript). Кроме того, в ходе проекта разработана техника предобработки данных, улучшающая обработку переменных с редкими именами в архитектуре Трансформер. В экспериментах показано, что использование техники позволяет повысить качество исправления ошибки в программе на языках Python и JavaScript на несколько процентов. Тема 6. Исследование многообразий, задаваемых нейросетями (#lossmanifold) В ходе проекта создан метод эффективного ансамблирования нейросетей CPDE (Cross-Pollinated Deep Ensembles), основу которого составляет конструирование членов ансамбля из функциональных блоков сети и совместное обучение этих блоков. Новая схема обучения ансамбля включает в себя предобучение, совместное обучение с интерфейсами, соединяющими блоки, и выбор под-ансамбля. Также был обнаружен эффект периодического поведения метрик при обучении нейронных сетей с батч-нормализацией и L2-регуляризацией. Данный эффект объяснен с интуитивной точки зрения, а также обоснован теоретически. Проведено эмпирическое исследование данного эффекта и показано, что периодическое поведение проявляется в большом количестве различных постановок экспериментов и для широкого диапазона гиперпараметров. Тема 7. Построение причинных графов и интерпретация моделей (#causal) Был построен новый класс распределений над дискретными объектами с эффективной процедурой генерации путем применения комбинаторных алгоритмов. Было показано, что некоторые известные в литературе распределения над конкретными комбинаторными объектами (перестановками, подмножествами и деревьями) могут быть представлены в виде частного случая предложенного класса. Помимо этого, в работе предложены не встречавшиеся в литературе распределения над паросочетаниями и бинарными деревьями. Используя след исполнения упомянутых комбинаторных алгоритмов, удалось построить градиентные оценки для широкого класса моделей со структурными переменными. Эффективность предложенного метода оценивания проанализирована теоретически и эмпирически. В экспериментах показано сопоставимое и иногда лучшее качество работы в сравнении с методами на основе дифференцируемых релаксаций. Кроме того, был проведен эксперимент, показывающий работоспособность алгоритма в ситуациях, когда релаксации неприменимы, что может быть полезно для различных специализированных областей глубинного обучения. Тема 8. Применение генеративных моделей для быстрой настройки симуляций реальных событий (#pythiaGAN) Начат совместный проект с Яндекс.Погодой по оптимизации настройки параметров модели предсказания погоды с целью повышения точности прогноза. Тема 9. Разработка быстрых генеративных моделей имитации сложных физических процессов (#fastsim) Впервые было проведено исследование по проверке физического качества симуляции отклика времяпролетной камеры для эксперимента MPD в Дубне. Результаты продемонстрировали хорошее качество генерируемых моделью откликов, практически точно воспроизводящих физические характеристики построенных на результатах генерации объектов. Таким образом была продемонстрирована возможность и целесообразность использования предложенного подхода для внедрения в программный стек эксперимента MPD. Тема 10. Диагностика и предсказание аномалий с использованием генеративных моделей (#anomalies) Был предложен способ использования нормализующих потоков для поиска аномалий. Показано, что подход превосходит другие подходы на табличных данных в случае небольшого количества известных аномалий в обучающей выборке. Кроме того, было показано, что предложенный подход обладает потенциалом работы для обнаружения аномалий в наборе фотографий, в случае изменения текущих нормализующих потоков на более экспрессивные. Тема 11. Построение обратимых генеративных моделей для повышения точности задач реконструкции (#reconstruction) В рамках темы было разработано решение двух задач: аугментация кривых блеска в реальных астрофизических данных, собранных в обзоре Zwicky Transient Facility и реконструкция калориметрических данных с использованием графовых нейронных сетей. В первой задаче было показано, что качество аугментации сильно зависит от тренировочных данных, в частности о том, что невозможен прямой перенос решений из симуляции (использовался набор PLAsTiCC, популярный в астрофизике) в реальные данные. В качестве проверки использовалось разделение сверхновых класса Ia, от других транзиентов. Таким образом, было предложено разрабатывать решение, работающее непосредственно на сильно разреженных кривых блеска, полученных в реальных данных. Во второй задаче было впервые показано, что графовые нейронные сети могут быть использованы для реконструкции множественных ливней в адронном калориметре. Подход показал высокое качество в сравнении с аналогичными. В дальнейшем полученное представление данных может быть использовано для решения прямой задачи в применении к симуляции отклика калориметра.

 

Публикации

1. А. Рыжиков, М. Борисяк, А. Устюжанин, Д. Деркач NFAD: fixing anomaly detection using normalizing flows PeerJ computer Science, PeerJ Computer Science 7:e757 (год публикации - 2021).

2. А.В. Крошнин, А. Л. Суворикова, В.Г. Спокойный Statistical inference for Bures–Wasserstein barycenters Annals of Applied Probability, 31(3): 1264-1298, 2021 (год публикации - 2021).

3. А.В.Колесников, Э. Вернер Blaschke-Santalo inequality for many functions and geodesic barycenters of measures Advances in Mathematics, - (год публикации - 2021).

4. А.Г. Байдин, Д, Деркач, Ф. Ратников, А. Устюжанин и др. Toward Machine Learning Optimization of Experimental Design Nuclear Physics News, Nuclear Physics News, 31:1, 25-28 (2021) (год публикации - 2021).

5. А.Маевский, Ф.Ратников, А.Зинченко, В.Рябов Simulating the Time Projection Chamber responses at the MPD detector using Generative Adversarial Networks The European Physical Journal C, 81, 599 (2021) (год публикации - 2021).

6. В. Белавин, Е. Трофимова, А. Устюжанин Segmentation of EM showers for neutrino experiments with deep graph neural networks Journal of Instrumentation, - (год публикации - 2022).

7. Д. В. Беломестный, Л. С. Иосипой, Э. Мулине, А.А.Наумов, С.В. Самсонов Variance Reduction for Dependent Sequences with Applications to Stochastic Gradient MCMC SIAM / ASA Journal on Uncertainty Quantification, 9(2), 507–535 (год публикации - 2021).

8. Е. Клочков, А.В. Крошнин, Н.К. Животовский Robust k-means clustering for distributions with two moments The Annals of Statistics, 49 (4) 2206 - 2230, 2021 (год публикации - 2021).

9. Лобачева Е., Кодрян М., Чиркова Н., Малинин А., Ветров Д. On the Periodic Behavior of Neural Network Training with Batch Normalization and Weight Decay NeurIPS Proceedings, - (год публикации - 2021).

10. Пучкин Н., Спокойный В. Structure-adaptive Manifold Estimation Journal of Machine Learning Research, 22, 1-62 (год публикации - 2021).

11. С. Добряков, К. Маланчев, Д. Деркач, М. Гущин Photometric Data-driven Classification of Type Ia Supernovae in the Open Supernova Catalog Astronomy and Computing, vol 35, page 100451 (год публикации - 2021).

12. Струминский К., Гадецкий А., Ракитин Д., Карпушкин Д., Ветров Д. Leveraging Recursive Gumbel-Max Trick for Approximate Inference in Combinatorial Spaces NeurIPS proceedings, - (год публикации - 2021).

13. Чиркова Н. On the Embeddings of Variables in Recurrent Neural Networks for Source Code North American Chapter of the Association for Computational Linguistics, P. 2679-2689 (год публикации - 2021).

14. Чиркова Н., Трошин С. Empirical Study of Transformers for Source Code ESEC/FSE proceedings, Pages 703–715 (год публикации - 2021).

15. Чиркова Н., Трошин С. A Simple Approach for Handling Out-of-Vocabulary Identifiers in Deep Learning for Source Code North American Chapter of the Association for Computational Linguistics, P. 278-288 (год публикации - 2021).