КАРТОЧКА
ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ
Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.
ОБЩИЕ СВЕДЕНИЯ
Номер 22-71-10067
НазваниеРазработка методов минимизации неопределённости в моделировании динамики эпидемических ОРВИ на основе комплекса моделей варьируемой структурной сложности
РуководительЛеоненко Василий Николаевич, Кандидат физико-математических наук
Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский университет ИТМО", г Санкт-Петербург
Период выполнения при поддержке РНФ | 07.2022 - 06.2025 |
Конкурс№71 - Конкурс 2022 года «Проведение исследований научными группами под руководством молодых ученых» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными.
Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-205 - Математические модели в науках о живом
Ключевые словаматематическая эпидемиология, COVID-19, грипп, имитационное моделирование, структурная сложность, анализ неопределённости
Код ГРНТИ28.17.19
ИНФОРМАЦИЯ ИЗ ЗАЯВКИ
Аннотация
Эпидемии острых респираторных вирусных инфекций, таких как грипп и СOVID-19, представляют серьезную угрозу общественному здравоохранению. Для контроля распространения инфекций и планирования мер сдерживания заболеваемости необходима оценка эпидемических показателей, получаемая с помощью статистических методов и математических моделей. При расчёте данных показателей возникает неопределенность, связанная как с погрешностями в исходных данных, использованных для калибровки моделей, так и с неточным воспроизведением механики эпидемического процесса моделью. Зависимость прогнозов и расчётов производных показателей от структуры модели может быть велика, и отсутствие её учёта, характерное для большинства работ по моделированию распространения эпидемических ОРВИ, затрудняет корректный прогноз эффективности противоэпидемических мероприятий.
В рамках настоящего проекта предполагается разработка методов и алгоритмов расчёта неопределённости оценки эпидемических показателей при моделировании динамики эпидемических ОРВИ, а также методов минимизации неопределённости путём выбора подкласса моделей, наилучших в плане «компромисса отклонения-дисперсии» для расчёта эпидемических показателей на рассматриваемых наборах данных заболеваемости.
В результате решения поставленных в проекте задач появится возможность осуществлять комплексное моделирование динамики эпидемической заболеваемости COVID-19 и гриппа с минимально достижимой неопределённостью для имеющихся данных. Полученная оценка оптимальной структурной сложности моделей и уровня неопределённости прогнозов позволит дать рекомендации о том, какая номенклатура и периодичность собираемых данных, связанных с динамикой ОРВИ, является необходимой и достаточной для ретроспективного анализа и прогнозирования заболеваемости с заданным уровнем точности. Подходы, разработанные в результате выполнения проекта, будут допускать обобщение для решения широкого круга проблем, связанных с моделированием процессов распространения в неоднородных средах, включая ко-циркуляцию и взаимодействие различных инфекций, динамику распространения информации, диффузионные и перколяционные процессы.
Ожидаемые результаты
Ожидается получение следующих результатов:
- Методы сравнения структурной сложности моделей разных классов (популяционных и мультиагентных).
- Методы расчёта неопределённости в оценке эпидемических показателей для популяционных и мультиагентных моделей, связанной с неопределенностью входных данных.
- Методы расчёта неопределённости в оценке эпидемических показателей для популяционных и мультиагентных моделей, связанной со структурной неопределённостью эпидемического процесса.
- Методы сравнения совокупной неопределённости выходных данных для моделей разных классов.
- Метод сравнения качества оценки эпидемических показателей с учётом структурной сложности моделей для моделей разных классов.
- Оценки неопределенности значений рассчитанных эпидемических показателей (прогнозные уровни заболеваемости, оценки параметров протекания эпидемии и выбор предпочтительных мер сдерживания) на данных по заболеваемости гриппом и COVID-19 в г. Санкт-Петербурге, связанной с неопределенностью входных данных и структурной неопределённостью эпидемического процесса.
- Результаты сравнения неопределенности оценок эпидемических показателей для комплекса моделей с поправкой на их структурную сложность и методика выбора подкласса оптимальных моделей для описания эпидемического процесса с заданной степенью детализации.
Научная значимость ожидаемых результатов заключается в возможности их использования для комплексного моделирования динамики эпидемической заболеваемости COVID-19 и гриппа с минимально достижимой для имеющихся данных неопределённостью и её корректной оценкой в зависимости от выбранной модели. Наличие корректных методов интервальной оценки эпидемических показателей в зависимости от имеющихся входных данных даёт возможность оптимизировать сбор этих данных с уточнением их номенклатуры и периодичности фиксации показателей, что потенциально может привести к снижению затрат на сбор данных и увеличению эффективности планирования контрольных мер (общественно значимый результат).
Соответствие предполагаемых результатов мировому уровню исследований обеспечивается наличием у руководителя проекта и исполнителей достаточного опыта и компетенции в области построения предсказательных моделей и модельных комплексов, наличие в составе участников проекта специалистов в области вирусологии и эпидемиологии, использованием в проекте современных технологий в области моделирования и анализа неопределённости, а также наличия высококачественных эпидемических данных для калибровки моделей.
ОТЧЁТНЫЕ МАТЕРИАЛЫ
Аннотация результатов, полученных в 2022 году
В ходе работ по первому этапу проекта участниками была собрана и обработана номенклатура данных по заболеваемости ОРВИ с разбивкой по отдельным возрастным группам за период с 2010 по 2022 г. Обработанные входные данные служили далее основной для калибровки всех применённых на данном этапе исследования математических моделей.
Был проведён обзор работ, посвящённых анализу и количественной оценке погрешностей в результатах моделирования с упором на методы, применяемые в математической эпидемиологии. Были рассмотрены различные конкретные способы восприятия и интерпретации неопределенности параметров модели, связанные с входными данными. По результату проведённого обзора работ был выбран для реализации метод количественной оценки неопределенности параметров в динамических моделях, который обсуждается в работе Chowell, 2017 и приводится в более ранних работах того же автора.
После обзора литературы и консультации с представителями предметной области был установлен следующий список практически значимых эпидемических показателей для оценки:
- Интенсивность эффективных контактов в популяции.
- Уровни предэпидемического иммунитета (доля восприимчивых индивидов в популяции).
- Прогнозная заболеваемость в краткосрочном периоде (масштаб одной эпидемической вспышки гриппа и одной волны COVID-19).
- Уровни послеэпидемического иммунитета (доля переболевших индивидов в популяции).
- Значение индикатора R0 (базовое число репродукции), рассчитанное аналитически для отдельных эпидемических волн гриппа и COVID-19 по оценкам параметров модели.
При дальнейшей реализации проекта для данных показателей были разработаны методы и алгоритмы оценки на различных подклассах моделей динамики гриппа и COVID-19.
Для сравнения качества калибровки моделей с учётом структурной сложности был выбран индикатор AIC. Алгоритм оценки структурной сложности был разработан, численно реализован и протестирован на популяционных моделях динамики гриппа и COVID-19, основанных на различных подходах. По результатам калибровки моделей проводится расчёт показателя AICc, который послужил результирующим индикатором качества калибровки с поправкой на структурную сложность.
При моделировании неопределенности были выбраны и протестированы структуры ошибок Пуассона и отрицательная биномиальная. Результирующий численный алгоритм интервальной оценки неопределённости показателей состоит из следующих шагов:
- Получить оптимальные значения параметров путем калибровки модели по исходным данным заболеваемости.
- Сгенерировать новые наборы данных на основе модельной кривой заболеваемости с добавлением сгенерированных ошибок выбранной структуры (пуассоновские или отрицательные биномиальные).
- Найти оптимальные параметры моделей, откалиброванных на сгенерированных данных.
- Сформировать выборку параметров модели и оценить их распределение.
Были проведены эксперименты с различным уровнем детализации данных, с учетом или исключением возрастных групп, и различной сложностью моделей. Показано, что выбор оптимальной модели может зависеть от представления данных (ежедневная заболеваемость по сравнению с общим количеством зарегистрированных случаев), периода рассматриваемых данных (одна или несколько эпидемических волн) и, что не менее важно, от желаемых выходных показателей. Показано, что в некоторых случаях более точные выходные значения не обусловлены более высокой структурной сложностью модели. Выяснено, что при использовании пуассоновской структуры ошибок получаемые доверительные интервалы слишком узки по сравнению с дисперсией исходных данных, что вызывает некоторые вопросы об адекватности этой структуры ошибок применительно к нашим данным. Показано, что отрицательная биномиальная структура ошибки является лучшим решением для учета наблюдаемой большой дисперсии эпидемических данных.
Представленные методы оценки неопределенности и их планомерное развитие позволяют дать рекомендации о том, какая номенклатура и периодичность сбора данных, связанных с динамикой ОРВИ, необходимы и достаточны для ретроспективного анализа и прогнозирования заболеваемости с заданным уровнем точности.
Публикации
1. Сахатова К. М., Харлунин А. А., Уаман И., Леоненко В. Н. Accounting for data uncertainty in modeling acute respiratory infections: influenza in St. Petersburg as a case study Lecture Notes in Computer Science, - (год публикации - 2023)
2. Уаман И., Леоненко В. Н. Does complex mean accurate: comparing COVID-19 propagation models with different structural complexity Lecture Notes in Computer Science, - (год публикации - 2023)
3. Уаман И., Плесовская Е.П., Леоненко В.Н. Matching model complexity with data detail: influenza propagation modeling as a case study 2022 IEEE SIBIRCON, 2022 IEEE International Multi-Conference on Engineering, Computer and Information Sciences (SIBIRCON), pp. 650-654 (год публикации - 2023) https://doi.org/10.1109/SIBIRCON56155.2022.10017084
4. Леоненко Василий Николаевич, Уаман Эскобар Исраэль Алехандро Программный модуль прогнозирования распространения гриппа в городах РФ на основе дискретной модели Барояна-Рвачева варьируемой структурной сложности -, 2022685894 (год публикации - )
5. Леоненко Василий Николаевич, Уаман Эскобар Исраэль Алехандро, Харлунин Александр Александрович, Сахатова Ксения Максимовна Программный модуль анализа неопределённости оценок заболеваемости в моделях эпидемии в зависимости от погрешности входных данных -, 2023619193 (год публикации - )
Аннотация результатов, полученных в 2023 году
В ходе работ по второму этапу проекта участниками был проведён обзор работ, связанных с оценкой неопределенности в мультиагентных моделях. В качестве отправной точки использовалась характеризация источников неопределенности входных данных, полученная на предыдущем этапе проекта при работе с популяционными моделями. Отмечен факт, что соответствующие уже примененные решения не могут быть применены в исходном виде для мультиагентных моделей в силу стохастической природы последних. В силу этого использован новый подход, связанный с оценкой неопределенности путём многочисленных повторных запусков модели с одними и теми же значениями параметров.
Для оценки структурной сложности мультиагентных моделей разработан обобщённый вариант аналогичного алгоритма для популяционных моделей, реализованного на предыдущем этапе проекта, с заменой прямого подсчёта количества переменных модели k на использование формулы МС=f(n_param) (МС - число степеней свободы модели, n_param - число параметров).
Для обеспечения практической ориентированности методов оценки неопределенности на основе мультиагентных моделей в рамках проекта систематизированы принципы реализации вычислительного алгоритма, позволяющие ускорить процесс сбора данных и проведения вычислительных экспериментов. Реализованный численный алгоритм удовлетворяет следующим критериям: максимальное использование готовых решений как в части моделей и программ, так и в части стандартов данных; ускоренная подготовка данных на основе стандартизованной информации, имеющейся для городов РФ, в противовес «штучному» сбору данных для конкретного случая; ускоренные вычисления, обеспеченные реализованной процедурой сэмплинга исходных популяций.
Для демонстрации возможности реализованных методов расчёта неопределённости была проведена калибровка мультиагентных моделей на синтетических эпидемических данных на сэмплированной синтетической популяции г. Челябинск. Для калибровки использовалось два вида моделей: мультиагентная модель динамики гриппа Leonenko et. al., 2020 из научного задела и вариант открытой модели COVASIM, адаптированный членами коллектива проекта под моделирование распространения заболеваемости гриппом. Калибровка обеих моделей выполнялась с использованием открытой библиотеки optuna, являющейся частью модельного комплекса COVASIM. Установлено, что на использованных данных наиболее эффективным методом калибровки является метод TPESampler (Tree-structured Parzen Estimator), основанный на парзеновских деревьях. Осуществлено сравнение качества расчёта показателей с учётом структурной сложности использованных мультиагентных моделей с помощью индикатора AICc.
В рамках модификации моделей проводились поисковые работы по комбинированному использованию подходов классического моделирования и методов машинного обучения для повышения эффективности применения уже разработанных на предыдущих этапах проекта популяционных и мультиагентных моделей, а именно:
- применение подхода Physics-Informed Neural Networks (PINN) для тестирования метода учёта влияния неопределённости во входных данных заболеваемости на модельную динамику заболеваемости и оценки эпидемических параметров в SIR-моделях.
- применение суррогатного моделирования для ускорения расчётов на основе мультиагентных моделей в случае множественных запусков.
Таким образом, в ходе данного этапа разработаны алгоритмы оценки неопределенности эпидемических индикаторов на основе мультиагентных моделей, оптимизированы алгоритмы высокопроизводительного моделирования и построения синтетических популяций на основе данных из открытых источников, продемонстрировано использование итоговых алгоритмов с помощью моделирования гриппа и COVID-19 на тестовых синтетических популяциях, включающих оригинальные и сэмплированные популяции Санкт-Петербурга, Челябинска и Самары, а также тестовые популяции произвольных малых городов. Предложен обобщенный вариант индикатора для сравнения качества моделирования с поправкой на структурную сложность модели, разработан алгоритм подсчёта данного индикатора и продемонстрировано его использование на примере сравнения эффективности работы мультиагентной модели с результатом референсной модели на основе COVASIM.
Публикации
1. Абрамова Юлия Юрьевна, Леоненко Василий Николаевич The Past Helps The Future: Coupling Differential Equations with Machine Learning Methods to Model Epidemic Outbreaks Lecture Notes in Computer Science, - (год публикации - 2024)
2. Корзин Андрей Ильич, Леоненко Василий Николаевич Uncertainty quantification for the stochastic modeling of influenza propagation: how many simulation runs is enough 2023 IEEE 24th International Conference of Young Professionals in Electron Devices and Materials (EDM), - (год публикации - 2024)
3. Сахатова К.М., Харлунин А.А., Леоненко В.Н. A Novel Approach to Modeling and Visualisation of Epidemic Outbreaks: Combining Manual and Automatic Calibration 2023 IEEE Ural-Siberian Conference on Computational Technologies in Cognitive Science, Genomics and Biomedicine (CSGB), 2023 IEEE Ural-Siberian Conference on Computational Technologies in Cognitive Science, Genomics and Biomedicine (CSGB), Novosibirsk, Russian Federation, 2023, pp. 221-226 (год публикации - 2023) https://doi.org/10.1109/CSGB60362.2023.10329850
4. Харлунин А.А., Уаман И., Леоненко В.Н. Inferring Values of Epidemic Indicators via SEIR Models to Enhance Epidemiological Surveillance in Russia 2023 IEEE Ural-Siberian Conference on Computational Technologies in Cognitive Science, Genomics and Biomedicine (CSGB), 2023 IEEE Ural-Siberian Conference on Computational Technologies in Cognitive Science, Genomics and Biomedicine (CSGB), Novosibirsk, Russian Federation, 2023, pp. 202-207 (год публикации - 2023) https://doi.org/10.1109/CSGB60362.2023.10329625
5. Леоненко В.Н., Корзин А.И., Капарулин Т.И. Программный комплекс для индивидуум-ориентированного моделирования вспышек заболеваний в городах РФ с помощью моделей оптимальной структурной сложности -, № 2024619085 (год публикации - )