КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 17-11-01093

НазваниеПриближенно оптимальные стратегии в игровых задачах управления

РуководительАвербух Юрий Владимирович, Доктор физико-математических наук

Организация финансирования, регион Федеральное государственное бюджетное учреждение науки Институт математики и механики им.Н.Н.Красовского Уральского отделения Российской академии наук, Свердловская обл

Период выполнения при поддержке РНФ 2020 г. - 2021 г. 

Конкурс Конкурс на продление сроков выполнения проектов, поддержанных грантами Российского научного фонда по приоритетному направлению деятельности Российского научного фонда «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами» (18).

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-204 - Математические проблемы теории управления

Ключевые словауправляемые системы, дифференциальные игры, стохастическое управление, игры со случайной продолжительностью, тауберовы теоремы, равновесие по Нэшу, игры в пространстве вероятностей, уравнения Гамильтона-Якоби, метод исчезающей вязкости

Код ГРНТИ27.37.19


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Предполагаемый проект посвящен построению оптимальных и приближенно оптимальных решений игровых задач управления. Будут рассматриваться как задачи с полной информацией, так и задачи с неопределенностью в информации о параметрах системы, таких как промежуток управления, динамика и положение системы. При этом неопределенность моделируется случайным распределением. Будут рассмотрены следующие задачи. Для дифференциальных игр с полной информацией будут изучаться конструкции приближенно оптимальных стратегий в случае, когда функционал платы задается условием минимизации некоторой величины вдоль траектории. Для игровых задач управления с неопределенностью информации о промежутке управления будут рассматриваться постановки со случайным моментом окончания, когда игроки имеют возможность влиять на функцию распределения момента окончания. В этом случае также будут рассматриваться конструкции приближенно оптимальных стратегий. В части проекта, касающейся неопределенности динамики системы, будут рассматриваться игровые задачи гибридного управления со случайным моментом переключения, т.е. мы предполагаем, что динамика системы может скачкообразно измениться в некоторый случайный момент времени. Для этих задач будут изучаться вопросы существования и построения точных решений. В части проекта, касающейся задач с неопределенностью информации о положении системы, будет рассматриваться случай, когда система состоит из большого числа однотипных элементов, точное положение которых неизвестно. В этом случае положение системы будет описываться мерой. В фокусе наших исследований будут вопросы об аппроксимации решения игровой задачи управления для предельной системы решениями задач управления для систем с конечным, но большим числом элементов, и о построении решений игровой задачи управления в случае изменения общего числа элементов, составляющих систему. Отметим, что рассматриваемые постановки тесно связаны с прикладными задачами. В частности, рассматриваемые в проекте задачи управления с полной информацией и функционалом, задаваемым условием минимизации некоторой величины вдоль траектории, включают в себя достаточно широкий класс игр преследования на ограниченном промежутке времени. Игровые задачи управления со случайным моментом окончания находят применение при исследовании поведения экономических агентов. Игры с возможным скачкообразным изменением динамики также описывают некоторые экономические модели, а также модели природоохранного менеджмента. Наконец, отметим, что игровые задачи управления для систем, состоящих из большого числа элементов, являются моделями, описывающими поведение многих мультиагентных систем, таких как группы мобильных роботов, поведение групп животных. Ранее для игровых задач управления с полной информацией и функционалом платы, задаваемым условием минимизации некоторой величины вдоль траектории, рассматривались лишь вопросы построения точных решений. Также для задач управления со случайным моментом окончания, на который могут оказывать влияние игроки, рассматривались лишь вопросы существования решений. Конструкции приближенно оптимальных решений для этих постановок не изучались. Исследования конструкций оптимальных решений для игровых задач управления с недетерминированным скачкообразным изменением динамики и для задач управления системами с переменной массой являются абсолютно новыми. Также ранее не рассматривались вопросы аппроксимации решений игровых задач управления в пространстве мер решениями игровых задач управления для систем, состоящих из большого, но конечного, числа элементов.

Ожидаемые результаты
Предполагается, что будут получены следующие результаты. Для игровой задачи управления с полной информацией и функционалом платы, задаваемым условием минимизации некоторой величины вдоль траектории, будут построены приближенно оптимальные стратегии в классе стратегий с моделью, в предположении о том, что динамика модельной системы описывается стохастической системой с непрерывным временем. Будет специально рассмотрен случай, когда модельная система задается марковской цепью с непрерывным временем, и будет получена аппроксимация функции цены дифференциальной игры с указанным выше функционалом платы, задаваемым условием минимизации некоторой величины вдоль траектории, решением системы обыкновенных дифференциальных уравнений с дополнительными ограничениями в форме неравенств. Для игровых задач управления со случайным моментом окончания, зависящим в том числе от управлений игроков, будут построены приближенно оптимальные стратегии в классе стратегий с моделью (поводырем). При этом, как и в случае игр с полной информацией, особое внимание планируется уделить стратегиям с модельной системой, задаваемой марковской цепью с непрерывным временем. Для дифференциальных игр с гибридной динамикой и случайным моментом переключения будут получены теорема существования и метод нахождения оптимальных стратегий в классе программных управлений. Для игровой задачи управления системой, состоящей из большого числа однотипных элементов, будет получена аппроксимация решений предельной задачи описываемой уравнением неразрывности, решениями конечномерных дифференциальных игр большой размерности. Также будет рассмотрена задача управления при изменении числа элементов, т.е. в этом случае допускаются источники и стоки. Для этой задачи будет доказана теорема о существовании решения. Отметим, что полученные результаты могут найти применение при изучении целого ряда прикладных задач, которые могут быть сформулированы как задачи управления с несколькими лицами, принимающими решения. Среди таких постановок необходимо отметить игровые задачи преследования-уклонения. Результаты проекта, касающиеся построения приближенно оптимальных стратегий, во-первых, могут быть использованы для случая перехвата облака объектов, где важно обеспечить перехват заданной их доли, во вторых, на их основе строятся аппроксимации функции цены, которые могут быть использованы для анализа качества конкретных стратегий. Результаты проекта, касающиеся игр со случайной продолжительностью и игровых задач управления с гибридной динамикой и случайным моментом переключения, могут найти применение при исследовании микроэкономических задач и задач природоохранного менеджмента. Также отметим, что предполагаемые результаты для игровых задач управления системами, состоящими из большого числа элементов, могут применены в целом ряде прикладных задач для мультиагентных систем, таких как задачи управления группами автономных роботов, или группами животных.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2020 году
Работы по проекту в 2020 году были посвящены развитию результатов, полученных участниками проекта в 2017-2019 годах. В части проекта, посвященной исследованию игровых задач управления с полной информацией, исследовались антагонистические дифференциальные игры с критерием, задаваемым условием минимизации некоторой функции вдоль реализовавшейся траектории. Отметим, что эти задачи возникают, в частности, при исследовании игр преследования/уклонения, где требуется минимизировать расстояние между убегающим и догоняющим в какой-то момент времени, а не обязательно в последний. Для дифференциальной игры с критерием, задаваемым минимизацией некоторой функции вдоль реализовавшейся траектории, нами в 2020 году был предложен метод построении приближенно оптимальных стратегий на основе решений игр со стохастической динамикой, в которых игрок, стремящийся минимизировать значение функционала, может выбирать момент окончания. Этот результат позволяет аппроксимировать функцию цены дифференциальной игры с критерием, задаваемым условием минимизации некоторой функции вдоль реализовавшейся траектории, функцией цены игровой задачи со стохастической динамикой. Отметим, что в целом ряде задач игрокам неизвестны точные параметры задачи такие, как динамика или продолжительность промежутка управления, но игроки могут в некоторой степени влиять на них. В рамках этого подхода нами изучалась игровая задача управления с неопределенностью информации о промежутке управления, моделируемой случайным распределением, вообще говоря, зависящим от действий игроков. Была рассмотрена аппроксимация исходной динамической системы марковской цепью, и на основе оптимальных стратегий в марковской цепи были построены приближенно оптимальные решения в исходной дифференциальной игре со случайным моментом окончания. Отметим близость аппроксимационных схем, предложенных для задачи со случайным моментом окончания и для задачи с критерием, задаваемым условием минимизации вдоль реализовавшейся траектории. Отличие состоит в выборе способа остановки. В случае случайного момента остановки аппроксимирующая задача наследует этот выбор от исходной задачи, а в случае игры с полной информацией, правило остановки выбирается одним из игроков как функция траектории, а возникающая случайность связана со стохастической динамикой модельной системы. Неопределенность динамики нами рассматривалась с двух сторон. Во-первых, мы предполагали, что динамические свойства системы могут в некоторый момент полностью поменяться. Такие системы принято называть гибридными. В рамках проекта рассматривался случай, когда момент переключения определяется как объективными, так и случайными факторами. В этих задачах нами было построено решение игровой задачи управления, а общие теоретические построения были использованы для анализа модельной задачи управления объемом вредных выбросов в предположении о циклическом характере изменения регенеративных свойств окружающей среды. Другой вариант неопределенности в динамике, рассматриваемый в проекте, возникает в системах, состоящих из большого числа однотипных элементов. В связи с тем, что количество элементов велико, но, вообще говоря, неизвестно, в существующей литературе принято моделировать такую систему управляемой системой в пространстве вероятностных мер. В 2020 году исследовались вопросы корректности этого подхода. Было показано, что равновесие в задаче управления для системы с большим, но конечным числом элементом является приближенным равновесием в предельной системе. Также были получены методы конечномерной аппроксимации решения предельной задачи и получены оценки погрешности. Наконец, необходимо отметить задачи управления системами, в которых число элементов может существенно варьироваться. В рамках настоящего проекта такие системы предложено моделировать управляемыми уравнениями баланса. В 2020 году были получены вспомогательные результаты, касающиеся качественных свойств систем в пространстве мер с динамикой, задаваемой уравнением баланса. Эти свойства будут в следующем году использованы при доказательстве теорем существования решения в форме равновесия по Нэшу для игровых задач управления системами с вариативной структурой.

 

Публикации

1. Бондарев А., Громов Д.В. On the Structure and Regularity of Optimal Solutions in a Differential Game with Regime Switching and Spillovers Dynamic Economic Problems with Regime Switches, Dynamic Economic Problems with Regime Switches. Dynamic Modeling and Econometrics in Economics and Finance, vol. 25, pp 187-207 (год публикации - 2020) https://doi.org/10.1007/978-3-030-54576-5_8

2. Заремба А., Громова Е.В., Тур А. A Differential Game With Random Time Horizon and Discontinuous Distribution Mathematics, Vol. 8, issue 12, article number: 2185 (год публикации - 2020) https://doi.org/10.3390/math8122185


Аннотация результатов, полученных в 2021 году
Работы в 2021 году продолжали исследования нашего коллектива, выполненные в 2020 году. В 2020 году нами были получены общие результаты, касающиеся построения приближенно оптимальных стратегий и аппроксимации функции цены для дифференциальной игры с полной информацией и с критерием, задаваемым условием минимизации некоторой функции вдоль реализовавшейся траектории. Предложенные конструкции, в частности, используют функцию цены вспомогательной дифференциальной игры со стохастической динамикой и моментом остановки, выбираемым одним из игроков. Мы выделили случай, когда вспомогательная игра задается марковской цепью с непрерывным временем. Нами было показано, что функция цены для этой вспомогательной задачи описывается системой обыкновенных дифференциальных уравнений с дополнительным условием в форме неравенства. В 2021 году мы получили результаты о существовании и единственности решения этой задачи. В части проекта, касающейся игровых задач управления с неопределенностью информации о промежутке управления, моделируемой случайным моментом окончания, мы продолжали исследования в области построения приближенно оптимальных стратегий на основе решения вспомогательных игровых задач управления для марковских цепей. В 2021 году мы рассмотрели случай, когда момент окончания является случайной дискретной случайной величиной, выбираемой из заданного множества игроками на основе информации о реализовавшейся траектории. В части проекта, касающейся игровых задач управления с неопреленностью в динамике, мы исследовали гибридные системы со случайным моментом переключения. Были получены необходимые условия оптимальности каждого игрока. Проведен качественный анализ этих условий и выделены основные классы оптимальных управлений. Теоретические результаты были применены к исследованию игровых задач об управлении объемом вредных выбросов при условии их частичной регенерации и возможного бесконечного числа переключений и к задаче об управлении возобновляемым ресурсом с нелинейной функцией роста. Для обоих задач было описано поведение оптимальных стратегий. Наконец, отметим работы в области игровых задач управления с неопределенностью структуры. Нами в 2021 году рассматривался случай, когда элементы системы однотипны, их число велико, но может меняться. Эта система в предельном случае очень большого числа элементов описывается как управляемая система в пространстве мер с динамикой, задаваемой уравнением баланса. Для игровой задачи управления уравнением баланса нами было показано существование равновесия по Нэшу в классе смешанных стратегий.

 

Публикации

1. Авербух Ю.В. Lattice approximations of the first-order mean field type differential games Springer, Volume 28, Article number: 65 (год публикации - 2021) https://doi.org/10.1007/s00030-021-00727-2

2. Авербух Ю.В. Value function of differential game with minimal cost Вестник Удмуртского университета. Математика. Механика. Компьютерные науки, - (год публикации - 2022)

3. Громов Д.В., Бондарев А., Громова Е.В. On periodic solution to control problem with time-driven switching Optimization Letters, - (год публикации - 2021) https://doi.org/10.1007/s11590-021-01749-6

4. Малахова А.П., Громова Е.В. Dynamic programming equations for the game-theoretical problem with random initial time Stability and Control Processes. Lecture Notes in Control and Information Sciences - Proceedings, - (год публикации - 2022)

5. Погодаев Н.И., Старицын М.В. Нелокальные уравнения баланса с параметром в пространстве знакопеременных мер Математический сборник, - (год публикации - 2022)

6. Старицын М.В., Погодаев Н.И., Гончарова Е.В. Feedback Maximum Principle for a Class of Linear Continuity Equations Inspired by Optimal Impulsive Control Mathematical Optimization Theory and Operations Research. Part of the Lecture Notes in Computer Science book series, pp 356-368 (год публикации - 2021) https://doi.org/10.1007/978-3-030-77876-7_24

7. Хлопин Д.В. Дифференциальная игра с дискретным моментом остановки Математическая теория игр и её приложения, - (год публикации - 2021)

8. Хлопин Д.В. Дифференциальная игра с возможностью досрочного завершения Труды Института математики и механики УрО РАН, Т. 27, № 4. С. 189-214 (год публикации - 2021) https://doi.org/10.21538/0134-4889-2021-27-4-189-214


Возможность практического использования результатов
Полученные результаты могут найти следующее применение. Результаты, касающейся построения аппроксимаций функции цены дифференциальной игры на основе решения игровых задач управления с динамикой, задаваемой марковской цепью с непрерывным временем, могут быть использованы для построения численных методов в дифференциальных играх, основанный на решении систем обыкновенных дифференциальных уравнений с дополнительными ограничениями в форме неравенств. Это позволит, в частности, исследовать качество эмпирических стратегий, которые используются в реальных системах. Результаты проекта в области построения стратегий для гибридных задач игрового управления со случайными моментами переключения находят применение в анализе моделей роста и в моделях управления объемами выбросов. Результаты проекта, касающиеся систем с неопределенностью в числе элементов системы, могут найти применение в целом ряде моделей поведения больших групп животных, пешеходов, систем роботов, а также моделей общественного мнения в случае, когда на эти системы подвержены нескольким управляющим воздействиям. При этом, наши результаты могут быть использованы для анализа качественного поведения на основе описания предельной системы, как системы в пространстве вероятностных мер и для построения численных методов.