Исследование и разработка интеллектуальной системы распознавания жестов для управления интерфейсами человеко-машинного взаимодействия

КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

ОБЩИЕ СВЕДЕНИЯ

Номер проекта 24-71-00083

НазваниеИсследование и разработка интеллектуальной системы распознавания жестов для управления интерфейсами человеко-машинного взаимодействия

Руководитель Рюмин Дмитрий Александрович, Кандидат технических наук

Организация финансирования, регион Федеральное государственное бюджетное учреждение науки "Санкт-Петербургский Федеральный исследовательский центр Российской академии наук" , г Санкт-Петербург

Конкурс №97 - Конкурс 2024 года «Проведение инициативных исследований молодыми учеными» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах; 01-202 - Интеллектуальный анализ данных и распознавание образов

Ключевые слова Автоматическое распознавание жестов, жестикуляция, нейронные сети, обучение с подкреплением, aугментация данных, методы машинного обучения, трансформеры, ансамбли моделей, оптимизация гиперпараметров, визуальный анализ данных, роботизированные системы, искусственный интеллект

Код ГРНТИ20.19.29

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ

Аннотация
Данный научный проект направлен на разработку интеллектуальной системы для распознавания жестикуляций человека, основанной на современных методах глубокого машинного обучения. Жестикуляция, важный элемент невербальной коммуникации, которая играет важную роль в общении и требует эффективного распознавания для улучшения качества человеко-машинного взаимодействия. Проект представляет собой интеграцию современных методов машинного обучения для создания точной и адаптивной системы распознавания жестов. Основные задачи проекта включают разработку и исследование математического, программного и информационного обеспечения, необходимого для реализации системы. Для этого предусмотрены два этапа: разработка математических моделей и программного обеспечения, а также экспериментальные исследования и оптимизация. Успешное выполнение проекта позволит достичь конкретных результатов: проведение глубокого анализа данных из различных источников с документированием ключевых закономерностей в жестикуляциях человека; разработку и применение методов предварительной обработки визуальных данных для качественной подготовки к обучению нейросетевых моделей; создание новых математических моделей, учитывающих временные и пространственные зависимости в визуальных данных; исследование современных методов автоматизации машинного обучения для эффективного подбора гиперпараметров нейросетевых моделей; проведение исследования потенциала ансамблей нейросетевых моделей для повышения точности распознавания жестов; проведение серии экспериментов для оценки производительности разработанных нейросетевых моделей и методов на выбранных жестовых корпусах; анализ результатов экспериментов с целью определения уровня точности распознавания жестов и времени выполнения; оптимизация моделей и методов для повышения их производительности и эффективности, включая адаптацию к различным условиям; создание открытой библиотеки для обучения и тестирования нейросетевых моделей, включая инструменты для обработки видеоданных и анализа жестов, а также функции анализа и визуализации результатов. Эти результаты будут иметь важное значение для развития технологий распознавания жестов и улучшения качества и эффективности процессов в производстве, образовании, обслуживании клиентов, играх и развлечениях, здравоохранении. Полученные результаты будут востребованы для дальнейших фундаментальных исследований и прикладных разработок в области жестовых технологий, диалоговых систем, человеко-машинного взаимодействия и искусственного интеллекта, соответствуя передовому мировому уровню. Предлагаемые научные исследования акцентируют внимание на важности технологий искусственного интеллекта, включая компьютерное зрение, машинное обучение, а также интеллектуальную поддержку принятия решений и перспективные методы искусственного интеллекта в различных сферах человеческой деятельности, от робототехники до систем умного дома. Полученные результаты будут способствовать созданию интеллектуальных технологий, что укрепит современное развитие и устойчивое положение Российской Федерации на внутренних и внешних рынках. Они также поддержат переход к передовым цифровым и интеллектуальным производственным технологиям, роботизированным системам, а также созданию систем обработки больших объемов данных, машинного обучения и искусственного интеллекта. Это соответствует приоритетам и перспективам научно-технологического развития Российской Федерации на период до 2030 года, а также социально-экономическому развитию страны до 2035 года.

ОТЧЁТНЫЕ МАТЕРИАЛЫ

Аннотация результатов, полученных в 2025 году
На первом этапе реализации научного проекта выполнен комплекс теоретических и прикладных исследований, направленных на развитие технологий многомодального анализа визуальной информации для автоматического распознавания жестов и движений человека в системах человеко-машинного взаимодействия. В рамках данного этапа проведен расширенный аналитический обзор отечественной и зарубежной научно-технической литературы, посвященной современным методам видеоанализа и распознавания элементов жестовых языков. По результатам анализа установлено, что интеграция гибридных нейросетевых архитектур, сочетающих в себе CNN, трансформеры и модели с линейной временной сложностью, позволяет значительно повысить точность распознавания в условиях вариативного освещения, сложного фонового окружения и широкого диапазона жестов. Отмечено, что включение пространственно-временных признаков и использование кросс-модальных связей на этапе обработки данных повышает устойчивость и надежность систем автоматического распознавания в реальном времени. С учетом выявленных тенденций и перспективных направлений разработан оригинальный метод предобработки визуальных данных, получивший название BiMoDiCA. Данный метод ориентирован на формирование синтетических видеопоследовательностей с цифровыми аватарами и включает модули аугментации, нормализации и адаптации видеоданных к условиям съемки. Реализованная технология обеспечивает многовариантную генерацию данных с изменением ракурсов, освещения и динамических характеристик жестов, что способствует существенному увеличению разнообразия обучающих выборок и снижению переобучения нейросетевых моделей. Метод продемонстрировал высокую эффективность при формировании синтетических аудиовизуальных корпусов для тестирования многомодальных моделей. Кроме того, в рамках проекта разработан новый метод многомодального анализа жестов под названием MoDeG-Prompt. Основу данного метода составляет модель Vision Mamba, дополненная механизмами кросс-модального внимания, синтетическими картами глубины и модулем обеспечения временной согласованности видеопоследовательностей. Предложенное решение позволяет согласованно обрабатывать пространственно-временные признаки RGB-кадров и данных глубины, формировать промежуточные текстовые подсказки (Vision Prompting) и обеспечивать устойчивое распознавание жестов в динамических сценах. Экспериментальные исследования подтвердили высокую точность и вычислительную эффективность разработанной модели как на открытых многомодальных корпусах, так и на синтетических видеоданных, полученных с применением метода BiMoDiCA. Особое внимание на первом этапе проекта уделено исследованию методов автоматизации подбора гиперпараметров нейросетевых моделей. Проведен сравнительный анализ современных алгоритмов, включая байесовскую оптимизацию, эволюционные методы и алгоритмы Монте-Карло. По результатам анализа установлено, что байесовская оптимизация демонстрирует наилучшие показатели по точности и скорости сходимости в условиях высокой размерности пространства параметров, в то время как эволюционные методы обладают высокой устойчивостью при работе с ограниченными обучающими выборками. Выводы по данному направлению легли в основу проектирования системы автоматизированного подбора параметров для ансамблевых нейросетевых методов. Также проведено обоснование целесообразности применения ансамблевых нейросетевых методов для распознавания редких и сложных по характеристикам жестов. Показано, что использование методов стекинга и градиентного бустинга позволяет повысить качество распознавания элементов жестового языка, а применение методов бэггинга способствует снижению риска переобучения при ограниченных объемах данных. Сформированы экспериментальные прототипы систем ансамблирования, результаты работы которых подтвердили эффективность предложенных решений. Результаты выполненных исследований представлены в виде цикла научных публикаций. В частности, принята статья в журнале «Научно-технический вестник информационных технологий, механики и оптики», который индексируется базами данных Scopus, RSCI, РИНЦ и включен в «Белый список», посвященная методу формирования синтетических видеопоследовательностей в том числе и для задач распознавания жестов. Также принята статья для публикации в трудах международной конференции «Interactive Systems & Information Society Technologies (InterSys)», которая индексируется базой данных Scopus, описывающая функциональную схему и принципы работы метода MoDeG-Prompt. Отдельные результаты представлены в докладах на международной конференции «International workshop on Photogrammetric techniques for environmental and infraStructure monitoring, Biometry and Biomedicine (PSBB)», которая индексируется базой данных Scopus, посвященных новому методу обучения без учителя G-MAE для распознавания жестов в системах человеко-машинного взаимодействия. Все выполненные работы и достигнутые научные результаты в полном объеме соответствуют заявленной цели и задачам проекта, определенным при поддержке Российского научного фонда.

Публикации

1. Аксёнов А.А., Рюмина Е.В., Рюмин Д.А. Метод генерации анимации цифрового аватара с речевой и невербальной синхронизацией на основе бимодальных данных Научно-технический вестник информационных технологий, механики и оптики (год публикации - 2025)

2. Рюмина Е.В., Рюмин Д.А., Иванько Д.В. G-MAE: Gesture-aware Masked Autoencoder for Human-Machine Interaction The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences (год публикации - 2025)

3. Рюмин Д.А., Егорова А.Д. MoDeG-Prompt: Depth-Enhanced Multimodal Gesture Recognition with Dynamic Cross-Modal Prompting for Few-Shot Learning Interactive Systems & Information Society Technologies (InterSys) (год публикации - 2025)