КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

ОБЩИЕ СВЕДЕНИЯ

Номер 20-71-10116

НазваниеОбучение с подкреплением с использованием сетевых векторно-символьных представлений в задаче интеллектуальной навигации когнитивных агентов

РуководительПанов Александр Игоревич, Кандидат физико-математических наук

Организация финансирования, регион федеральное государственное учреждение "Федеральный исследовательский центр "Информатика и управление" Российской академии наук", г Москва

Период выполнения при поддержке РНФ

07.2020 - 06.2023

, продлен на 07.2023 - 06.2025. Карточка проекта продления (ссылка)

Конкурс№50 - Конкурс 2020 года «Проведение исследований научными группами под руководством молодых ученых» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными.

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-201 - Искусственный интеллект и принятие решений

Ключевые словаОбучение с подкреплением, иерархическое обучение с подкреплением, распределенные представления, каузальная семиотическая сеть, навигация, локализация, картирование, мобильный робот, когнитивный агент

Код ГРНТИ28.23.25

СтатусУспешно завершен

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ

Аннотация
Одной из фундаментальных проблем в области искусственного интеллекта является проблема построения общих универсальных интеллектуальных систем управления поведением как программных, так и робототехнических агентов. К основным результатам в этой области можно отнести ряд когнитивных архитектур (ACT-R, Soar и др.), использующих модели когнитивной психологии при построении подсистем памяти и использования знаний; интеллектуальные динамические системы, основанные на правилах; программные пакеты по автоматизации ряда задач управления мобильными робототехническими платформами и беспилотными транспортом (ROS, Apollo и др.); архитектуры агентов, взаимодействующих с игровой средой, на основе методов обучения с подкреплением и другие; системы общего искусственного интеллекта (AGI, AIXI, OpenCog и др.), предлагающих различные варианты системной интеграции имеющихся методов представления знаний и подсистем вывода на их основе. Однако, несмотря на большое количество предложенных концепций и методов, синтез сложного поведения в широком спектре динамических сред с учетом взаимодействия с активными участниками совместной деятельности до сих пор является нерешенной задачей. К основным фундаментальным барьерам на данном пути необходимо отнести проблему интеграции субсимвольных (в том числе нейросетевых) методов приобретения и обработки первичной информации, получаемой от среды (сенсорных данных), и символьных методов представления концептуальных знаний и вывода на их основе (моделирование рассуждений и планирование поведения). В зарубежной литературе эта проблема известна как проблема привязки символов (symbol grounding problem). Настоящий проект посвящен разработке новых методов и алгоритмов, позволяющих продвинутся в решении этой фундаментальной научной проблемы в контексте синтеза и управления поведением когнитивного агента в задаче интеллектуальной навигации. Разрабатываемый подход к нейросимвольной интеграции позволит включить в общую систему управления ключевую подсистему пополнения концептуальных знаний и использование результатов рассуждений и планирования в решении таких важнейших базовых поведенческих задач в робототехнике, как картирование, локализация и передвижение в сложной человеко-ориентированной среде. Актуальность решения обозначенной проблемы заключается в том, что в конечном счете данная подсистема позволит существенно повысить степень автономности как программных, так и робототехнических агентов. При проведении научно-исследовательских и конструкторских работ на основе разрабатываемых методов и технологий возможно получение новых программных пакетов в составе робототехнических операционных систем, используемых в бытовых, промышленных роботах, беспилотных летательных аппаратах, автономном транспорте и других мобильных робототехнических системах, автономно работающих в сложных динамических условиях. В ходе выполнения проекта планируется получение следующих основных научных и практических результатов. Будут разработаны новые методы и алгоритмы, направленные на решение проблемы привязки символов в контексте задачи приобретения знаний и синтеза поведения по перемещению в человеко-ориентированной среде на основе оригинального подхода каузальных семиотических сетей. С целью применения разрабатываемых методов в реальных робототехнических системах будут созданы новые быстрые нейросетевые методы восстановления сцены и карты местности и локализации на ней с возможностью сегментации объектов и препятствий. Будут предложены новые методы рассуждения и вывода на основе пространственных знаний c использованием распределенных векторно-символьных представлений, расширяющих возможности каузальной семиотической сети. Будет разработан новый алгоритм иерархического обучения с подкреплением, использующий подсистему генерации подцелей, обеспечивающий эффективное исследование и перемещение к целевой области в сложной динамической среде. В рамках проекта планируется создать экспериментальное программное обеспечение, реализующее все основные методы и алгоритмы. Будет проведена экспериментальная проверка эффективности и работоспособности предложенных подходов для когнитивных агентов, работающих как в симуляционных средах (NVIDIA Isaak, V-REP, Habitat), так и на реальных робототехнических платформах (серии МПРМ Зарница, Clearpath Husky).

Ожидаемые результаты
В ходе выполнения проекта планируется получение следующих основных научных и практических результатов: 1. Будут разработаны новые методы и алгоритмы, направленные на решение проблемы привязки символов в контексте задачи приобретения знаний и синтеза действий по перемещению в сложной человеко-ориентированной среде. Ранее интеграция субсимвольных нейросетевых методов машинного обучения и символьных методов моделирования рассуждений и планирования применительно к задачи картирования, локализации и перемещения в сложной динамической среде не проводилась. Имеющиеся подходы для данной задачи, в том числе на основе обучения с подкреплением, не используют возможности пополнения пространственных знаний за счет рассуждений во многом в связи с тем, что имеющиеся методы нейросимвольных вычислений плохо адаптированы к робототехническми задачам. Новый подход к нейросимвольной интеграции, который предполагается развить в настоящем проекте, будет опираться на расширение разрабатываемой участниками проекта каузальной семиотической сети за счет использования высокоразмерных векторно-символьных распределенных представлений для моделирования образной компоненты знаний агента. Это позволит создать эффективный метод пополнения пространственных знаний, применимый в задаче интеллектуальной навигаци. 2. С целью применения разрабатываемых методов в реальных робототехнических системах будут созданы новые быстрые нейросетевые методы восстановления сцены и карты местности и локализации на ней с возможностью сегментации объектов и препятствий. Получаемая данным модулем компьютерного зрения информация будет использоваться для генерации распределенных представлений образной компоненты знаний агента. Будут предложены программные реализации разрабатываемых алгоритмов на энергоэффективных встраиваемых вычислительных комплексах, применяемых в робототехнике. В настоящее время методы одновременного картирования и локализации (SLAM), позволяющие с достаточной точностью поддерживают не всегда достаточную скорость работы на встраиваемых системах. В настоящем проекте предполагается повышать эффективность методов SLAM за счет использования в том числе комплексирования разных модальностей сенсорных данных на базе распределенных представлений. 3. Будут предложены новые методы рассуждения и вывода на основе пространственных знаний, представленных с помощью распределенных представлений каузальной семиотической сети. Пополнение представления о текущей карте и сцене позволит повысить эффективность методов планирования поведения агентом. Ранее пространственные рассуждения на основе распределенных представлений не развивались. 4. Будет разработан новый алгоритм иерархического обучения с подкреплением, использующий подсистему генерации подцелей, обеспечивающий эффективное исследование и перемещение к целевой области в сложной динамической среде. Возможность эффективнее исследовать ранее неизвестную среду существенно улучшит возможности агента по построению карты и локализации в ранее не наблюдаемой динамической среде. Создание данных методов с использованием машинного обучения, в том числе с подкреплением, является актуальной нерешенной задачей в области когнитивной робототехники. 5. Будет реализовано экспериментальное программное обеспечение, тестирующее все основные методы и алгоритмы, которые будут разработаны в настоящем проекте. Будет проведена экспериментальная проверка эффективности и работоспособности предложенных подходов для когнитивных агентов, работающих как в симуляционных средах (NVIDIA Isaak, V-REP, Habitat), так и на реальных робототехнических платформах (серии МПРМ Зарница, Clearpath Husky). Разрабатываемое программное обеспечение может быть использовано в качестве важной подсистемы в таких программных продуктах, как Robotic Operation System (ROS) или Apollo, которые применяются в настоящее время в качестве промышленных стандартов для построения систем управления автономными мобильными робототехническими платформами и беспилотным транспортом.

ОТЧЁТНЫЕ МАТЕРИАЛЫ

Аннотация результатов, полученных в 2020 году
Одной из фундаментальных проблем в области искусственного интеллекта является проблема построения общих универсальных интеллектуальных систем управления поведением как программных, так и робототехнических агентов. К основным фундаментальным барьерам на данном пути необходимо отнести проблему интеграции субсимвольных (в том числе нейросетевых) методов приобретения и обработки первичной информации, получаемой от среды (сенсорных данных), и символьных методов представления концептуальных знаний и вывода на их основе (моделирование рассуждений и планирование поведения). Настоящий проект посвящен разработке новых методов и алгоритмов, позволяющих продвинутся в решении этой фундаментальной научной проблемы в контексте синтеза и управления поведением когнитивного агента в задаче интеллектуальной навигации. Разрабатываемый подход к нейросимвольной интеграции позволит включить в общую систему управления ключевую подсистему пополнения концептуальных знаний и использование результатов рассуждений и планирования в решении таких важнейших базовых поведенческих задач в робототехнике, как картирование, локализация и передвижение в сложной человеко-ориентированной среде. В рамках работ на первом этапе данного проекта были получены следующие результаты. Было предложено оригинальное решение проблемы привязки символов с семиотической точки зрения, использующее знаковую когнитивную архитектуру (SBWM) для иерархического представления сцен и векторные символьные архитектуры (VSA) в качестве вычислительного и репрезентативного инструмента. Архитектура SBWM позволяет привязать символы, участвующие в описании сцены, к сенсорному вводу агента, а VSA позволяет работать с этими символами как с числовыми векторами. Свойства предложенного подхода, в т.ч. его корректностные и емкостные параметры, были продемонстрированы при решении задачи ответа на вопросы по изображению (VQA). Была продемонстрирована его высокая производительность на наборе данных CLEVR. В ходе проекта разработан оригинальный подход к пространственно-временной агрегации карт признаков на разных временных шагах вывода глубокой нейросетевой модели (названный потоком карт признаков, feature map flow, FMF). Исследовано несколько версий FMF: от общей конкатенации до слияния контекстной карты признаков и использования одометрии для предыдущего аффинного преобразования карты признаков. Разработанный метод FMFNet на основе обнаружения признаков для точек центра объектов показал лучшую производительность на наборе данных nuScenes как для 3D-обнаружения, так и для отслеживания. По направлению работ в области иерархического обучения с подкреплением был предложен новый подход, применимый в задаче навигации на основе датчиков RGB-D и одометрии. Предложенный метод LPPO использует иерархический подход для повышения качества нахождения объектов интереса в сценах с большим геодезическим расстоянием и выделения промежуточных целей, ключевых точек, из экспертных траекторий. Данный метод позволил использовать уже обученную модель с высокими показателями на сценах с малым геодезическим расстоянием и не обучать сложную глобальную стратегию выделения подцелей. Построенная модель работает с высокими показателями успеха на различных сценах Matterport, показывая наилучший результат среди аналогичных алгоритмов. На следующем этапе проекта будут расширены возможности создаваемых методов за счет гибридизации векторных представлений описания сцен, а разрабатываемые модули будут использоваться для построения более эффективной системы по навигации мобильных роботов в помещениях.

Публикации

1. Давыдов В., Люсько Т., Панов А.И. Self and Other Modelling in Cooperative Resource Gathering with Multi-Agent Reinforcement Learning Brain-Inspired Cognitive Architectures for Artificial Intelligence: BICA*AI 2020. Advances in Intelligent Systems and Computing, Vol.1310 (год публикации - 2021) https://doi.org/10.1007/978-3-030-65596-9_9

2. Скрынник А.А., Староверов А.В., Айтыгулов Э.Э., Аксенов К.А., Давыдов В.Д., Панов А.И. Forgetful experience replay in hierarchical reinforcement learning from expert demonstrations Knowledge-Based Systems, Vol. 218, 106844 (год публикации - 2021) https://doi.org/10.1016/j.knosys.2021.106844

3. Староверов А., Юдин Д.А., Белкин И., Соломенцев Я.К., Панов А.И. Real-Time Object Navigation with Deep Neural Networks and Hierarchical Reinforcement Learning IEEE Access, Vol. 8, pp. 195608-195621 (год публикации - 2020) https://doi.org/10.1109/ACCESS.2020.3034524

Аннотация результатов, полученных в 2021 году
Настоящий проект посвящен разработке новых методов и алгоритмов, позволяющих продвинутся в решении фундаментальной научной проблемы в контексте синтеза и управления поведением когнитивного агента – в проблеме привязки символов. В рамках проекта разрабатывается новый подход к нейросимвольной интеграции, который позволяет включить в общую систему управления ключевую подсистему пополнения концептуальных знаний и использование результатов рассуждений и планирования в решении таких важнейших базовых поведенческих задач в робототехнике, как картирование, локализация и передвижение в сложной человеко-ориентированной среде. В продолжении работа на втором этапе был подготовлен новый набор данных HISNav VQA, направленный на разработку мультимодальных моделей для визуальной навигации в средах, ориентированных на человека. На данном наборе данных была продемонстрирована работа векторно-семиотической архитектуры, который показал свою эффективность на синтетических вопросах. Это дает возможность создавать вопросы, специфичные для конкретной области, с высокой вероятностью получения правильного ответа, что имеет решающее значение для прикладных задач в области интеллектуальных воплощенных ассистентов. Был разработан новый двухэтапный векторно-символьный подход (алгоритм TSVLoc) для построения семантического представления сцены на основе семантических карт и карт глубины. Эксперименты показали, что метод семантического поиска изображений TSVLoc значительно превосходит предыдущие методы, основанные на популярных моделях нейронных сетей HF-Net, NetVLAD и Patch-NetVLAD. Был разработан алгоритм построения карты мобильного робота на основе объединения данных камеры и лидара мобильных роботов, в том числе результатов обнаружения и сегментации объектов среды. Для решения задачи глобальной локализации мобильного робота был предложен новый метод единого векторного представления изображения камеры и лидарного скана, сочетающий в себе достоинства мультимодального метода MinkLoc++ и нейронной сети SeqNet, формирующей единое векторное представления последовательности изображений. В направлении развития методов обучения с подкреплением был разработан новый подход к решению задачи навигации до объекта по изображению ObjectGoal. В обновленной формулировке задаче с использованием ориентиров была предложена новая иерархическая архитектура на базе методов обучения с подкреплением. При обучении формируются так называемые навыки, которые можно комбинировать и повторно использовать в различных навигационных ситуациях без изменений. Показатель успеха предложенного метода удваивается с 20% для современных методов до 46% с предобученным модулем сегментации объектов.

Публикации

1. Айтыгулов Э., Панов А.И. Transfer Learning with Demonstration Forgetting for Robotic Manipulator Procedia Computer Science, Vol. 186, p. 374-380 (год публикации - 2021) https://doi.org/10.1016/j.procs.2021.04.159

2. Боковой А., Муравьев К. Assessment of Map Construction in vSLAM 2021 International Siberian Conference on Control and Communications (SIBCON), pp. 1-6 (год публикации - 2021) https://doi.org/10.1109/SIBCON50419.2021.9438884

3. Жолус А., Панов А.И. Case-based Task Generalization in Model-based Reinforcement Learning Artificial General Intelligence. AGI 2021. Lecture Notes in Computer Science, Vol. 13154, p.344-354 (год публикации - 2022) https://doi.org/10.1007/978-3-030-93758-4_35

4. Ковалёв А.К., Шабан М., Осипов Е., Панов А.И. Vector Semiotic Model for Visual Question Answering Cognitive Systems Research, Vol. 71, p. 52-63 (год публикации - 2022) https://doi.org/10.1016/j.cogsys.2021.09.001

5. Угадяров Л., Скрынник А., Панов А.И. Long-Term Exploration in Persistent MDPs Advances in Soft Computing. MICAI 2021. Part I. Lecture Notes in Computer Science, Vol.13067, p.108-120 (год публикации - 2021) https://doi.org/10.1007/978-3-030-89817-5_8

Аннотация результатов, полученных в 2022 году
Настоящий проект посвящен разработке новых методов и алгоритмов, позволяющих решить проблему привязки символов в робототехнических задачах, связанных с навигацией внутри помещений. В рамках проекта разрабатывается новый подход к нейросимвольной интеграции, который позволяет включить в общую систему управления робототехнической платформой более эффективные методы представления сцен, методы обучения с подкреплением и моделей концептуального планирования по языковым нструкциям. На заключительном этапе выполнения проекта особое внимание уделялось доработке предложенных на первых двух этапах методов и подходов нейросимвольной интеграции и экспериментальной проверке разработанных алгоритмов с использованием симуляционных сред и реальной робототехнической системы Husky. В соответствии с планом работ были решены следующие задачи. Разработанный на предыдущем этапа проекта фотореалистичный набор данных HPointLoc был использован для тестирования, сравнения и выявления недостатков современных методов формирования латентных представлений в важной для робототехники задаче распознавания места. На основе этого анализа была предложена архитектура PNTR, которая может быть использована в связке со структурными латентными представлениями, в том числе нейросимвольными. Было предложено развитие метода символьных высокоразмерных латентных представлений для использования в более эффективном структурированном латентном пространстве с интерпретируемыми элементами. Данный метод был протестирован в режиме слабоконтролируемого обучения на синтетических наборах типа CLEVER и показал конкурентные результаты по сравнению с слабоинтерпретируемыми моделями. В направлении интеграции была предложена оригинальная архитектура FIQA, объединяющая в себе нейросимвольные представления и навигацию с использованием обучения с подкреплением. Она была протестирована на среде Alfred, в которой предложена оригинальная задача манипуляции с объектами и навигации по языковым командам. В направлении натурных экспериментов была продолжена экспериментальная работа с мобильной платформой Husky, в результате которой была завершена отладка методов навигации с использованием обучения с подкреплением.

Публикации

1. Кириленко Д., Ковалев А., Соломенцев Я., Мелехин А., Юдин Д.А., Панов А.И. Vector Symbolic Scene Representation for Semantic Place Recognition 2022 International Joint Conference on Neural Networks (IJCNN), 1-8 (год публикации - 2022) https://doi.org/10.1109/IJCNN55064.2022.9892761

2. Корчемный А., Ковалев А., Панов А.И. Symbolic Disentangled Representations in Hyperdimensional Latent Space NeSy-GeMs Workshop ICLR 2023, p. 1-17 (год публикации - 2023)

3. Панов А.И. Иерархическая постановка задачи объектно-центричного обучения с подкреплением Интегрированные модели и мягкие вычисления в искусственном интеллекте. Сборник научных трудов XI Международной научно-практической конференции (ИММВ-2022, Коломна, 16-19 мая 2022 г.). В 2-х томах, Т. 2, с. 248-256 (год публикации - 2022)

4. Панов А.И., Ковалев А.К., Чуганская А.А. Большие языковые модели как аппроксиматоры значения в знаковой картине мира Всероссийская конференция "Поспеловские чтения: искусственный интеллект - проблемы и перспективы", Поспеловские чтения-2022 (Москва, 19-20 декабря 2022 г.). Труды конференции, Всероссийская конференция "Поспеловские чтения: искусственный интеллект - проблемы и перспективы", Поспеловские чтения-2022 (Москва, 19-20 декабря 2022 г.). Труды конференции (год публикации - 2022)

5. Староверов А., Панов А.И. Hierarchical Landmark Policy Optimization for Visual Indoor Navigation IEEE Access, Vol. 10, pp. 70447-70455 (год публикации - 2022) https://doi.org/10.1109/ACCESS.2022.3182803

6. Юдин Д.А., Соломенцев Я., Мусаев Р., Староверов А., Панов А.И. HPointLoc: Point-based Indoor Place Recognition using Synthetic RGB-D Images Neural Information Processing. Lecture Notes in Computer Science, Vol. 13625, pp. 471-484 (год публикации - 2023) https://doi.org/10.1007/978-3-031-30111-7_40

Возможность практического использования результатов
Полученные в рамках проекта результаты могут быть использованы для усовершенствования имеющихся систем управления робототехническими платформами и беспилотным транспортом. Повышение стабильности работы и уровня автономности позволить существенно расширить спектр возможного использования робототехнических систем в промышленности и сфере услуг.