КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

ОБЩИЕ СВЕДЕНИЯ

Номер 21-71-00141

НазваниеИсследование и разработка новых методов и подходов к автоматическому распознаванию жестовых языков

РуководительРюмин Дмитрий Александрович, Кандидат технических наук

Организация финансирования, регион Федеральное государственное бюджетное учреждение науки "Санкт-Петербургский Федеральный исследовательский центр Российской академии наук", г Санкт-Петербург

Период выполнения при поддержке РНФ

07.2021 - 06.2023

Конкурс№60 - Конкурс 2021 года «Проведение инициативных исследований молодыми учеными» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными.

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-726 - Системы и технологии интеллектуального анализа данных и распознавания образов

Ключевые словаассистивные технологии, человеко-машинное взаимодействие, многомодальные данные, жестовый язык, компьютерное зрение, машинное обучение, искусственный интеллект

Код ГРНТИ20.19.29, 50.10.43, 50.33.05

СтатусУспешно завершен

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ

Аннотация
Создание систем искусственного интеллекта, способных к распознаванию естественных, в т.ч. и жестовых языков, является одной из ключевых задач в современном информационном обществе. В связи с этим ученые мировых научных центров уделяют внимание машинной обработке языка и проблемам автоматического перевода с одного языка на другой. Решение задачи по распознаванию жестов относится к другой важной сфере - автоматическому распознаванию образов и машинному зрению, и полученные при решении этой задачи результаты будут иметь значительный инновационный потенциал. Полученные в ходе проекта данные будут чрезвычайно важны еще и потому, что будут способствовать повышению качества жизни людей с ограниченными возможностями здоровья, в частности, инвалидов по слуху. Машинный перевод с жестовых языков сопряжен с еще большими сложностями, чем обработка звучащих языков, благодаря дополнительной задаче распознавания динамических жестов. Причиной являются факторы, относящиеся к проблемам компьютерного зрения: окклюзии, различия в фоновом освещении, необходимость привлечения больших вычислительных ресурсов, недостаточный объем наборов данных. В отличие от звучащих языков, жестовые языки по своей природе визуальны, и структура высказывания на любом жестовом языке мира, как правило, нелинейна: при коммуникации зачастую оказываются активны сразу несколько артикуляторов (руки, голова, туловище), жесты демонстрируются одновременно и имеют привязку к разным координатам жестового пространства. Таким образом, заявленная проблема, на решение которой направлено данное исследование, принадлежит как к сфере компьютерного зрения, так и лингвистики жестовых языков, подразумевая поиск эффективных решений, позволяющих интерпретировать высказывания на жестовых языках с привлечением методов компьютерного зрения и математической лингвистики. Настоящий проект содержит две основные научные задачи: 1) Разработка методов и системы автоматического распознавания жестов русского жестового языка. 2) Система автоматической интерпретации высказывания на жестовом языке и перевода на русский язык (текстовое представление). Одна из основных задач автоматического распознавания жестовых языков (и жестов) лежит в области компьютерного зрения. Иными словами, для анализа высказываний на жестовом языке предварительно требуется система, с высокой точностью идентифицирующая жесты. Проблема распознавания жестов хоть и коррелирует с проблемой распознавания жестового языка, но конечные цели в обоих случаях разные; в первом случае речь идет о создании робастных систем компьютерного зрения, во втором - о задаче автоматического распознавания естественного языка. Вторая задача подразумевает формального описания фонетики (элементов отдельных жестов), грамматики (морфология, синтаксис) и прагматических (иллокуция) аспектов русского жестового языка с представлением высказываний в виде метаязыка для перевода. Проблема эффективности распознавания жестов до сих пор не решена из-за серьезных различий в семантико-синтаксической структуре звучащих и жестовых языков. Для создания полноценных систем машинного перевода требуется глубокий семантический анализ и лингвистический разбор текстов на жестовых языках. Обзор существующих научных работ и систем перевода с жестовых языков позволяет сделать вывод о том, что на сегодня полноценных систем перевода с жестовых языков не существует. Такое положение вещей обусловлено, в первую очередь, тем, что одна из основных задач автоматического распознавания жестовых языков (и жестов) лежит в области компьютерного зрения. Иными словами, для анализа высказываний на жестовом языке предварительно требуется система, с высокой точностью идентифицирующая жесты Решение поставленных задач сопряжено с созданием математического и программного обеспечения, позволяющего с высокой точностью идентифицировать жесты в потоке речи и подразумевает активное использование методов машинного обучения. Кроме того, для создания полноценной системы машинного перевода с русского жестового языка авторы данного проекта должны будут собрать репрезентативную базу данных для русского жестового языка - как для лингвистического анализа, так и для обучения языковых моделей.

Ожидаемые результаты
Предлагаемый проект представляет собой комплексное междисциплинарное исследование, выполнение которого позволит решить ряд проблем машинного распознавания жестовых языков, а также машинного перевода с русского жестового языка в текстовое представление. Проект имеет значительный инновационный потенциал. Создание систем искусственного интеллекта, способных к распознаванию естественных, в т.ч. и жестовых языков, является одной из ключевых задач в современном информационном обществе. В связи с этим ученые мировых научных центров уделяют внимание машинной обработке языка и проблемам автоматического перевода с одного языка на другой. Решение задачи по распознаванию жестов относится к другой важной сфере - автоматическому распознаванию образов и машинному зрению, и полученные при решении этой задачи результаты будут иметь значительный инновационный потенциал. Полученные в ходе проекта данные будут чрезвычайно важны еще и потому, что будут способствовать повышению качества жизни людей с ограниченными возможностями здоровья, в частности, инвалидов по слуху. В результате проекта предполагается создание нового математического, программного и информационно-лингвистического обеспечения, позволяющего распознавать элементы жестовых языков (на примере русского жестового языка). Принципиально новыми являются: 1) Создание аннотированной многомодальной базы данных русского жестового языка, выполненной при помощи сенсора захвата видеоинформации; 2) Формальное описание фонетики (элементы отдельных жестов), грамматики (морфология, синтаксис) и прагматических (иллокуция) аспектов русского жестового языка с представлением высказываний в виде метаязыка для взаимного перевода - на сегодня не существует сколько-нибудь последовательного описания грамматики русского жестового языка, не говоря об онтологиях, пригодных для машинного перевода. 3) Создание эффективных методов автоматического распознавания РЖЯ и машинного перевода в текстовое представление.

ОТЧЁТНЫЕ МАТЕРИАЛЫ

Аннотация результатов, полученных в 2021 году
На первом этапе РНФ проекта коллективом исполнителей были получены следующие основные научные результаты: 1) Проведен расширенный аналитический обзор современной научно-технической литературы по тематике исследований. В ходе которого выявлено, что современные методы комплексного анализа движений человеческого тела (в том числе и машинный сурдоперевод для естественного человеко-машинного взаимодействия) на основе интегральных нейросетевых моделей могут уступать по скорости базовым подходам, однако существенно превосходить их в точности. В связи с этим можно сделать вывод, что методы многомодального видеоанализа движений рук для автоматического распознавания ручных жестов и элементов жестовых языков должны базироваться на анализе информативных пространственно-временных визуальных характеристик жеста в определенных момент времени с помощью предварительно обученной нейросетевой модели с долгой кратковременной памятью (от англ. Long Short-Term Memory, LSTM). Сеть LSTM является разновидностью рекуррентной нейронной сети, которая способна моделировать события или явления, зависящие от времени или последовательности (язык тела и жестов). Кроме того, имеет место также учитывать влияния дополнительных факторов (например, гендерных и возрастных характеристик диктора) на надежность автоматических систем распознавания как отдельных жестов, так и жестовых языков. На основании углубленного изучения и полученных знаний были разработаны новые “предварительные” математические средства (модели и методы) интеллектуального анализа и оценки важности влияния гендерных и возрастных характеристик диктора на автоматическое распознавание отдельных ручных жестов и элементов жестовых языков (машинный сурдоперевод). Получены результаты экспериментов (количественная оценка), доказывающие эффективность предложенных новых математических средств. 2) Разработано новое математическое и программное обеспечение для записи многомодального корпуса с компонентами русского жестового языка и использованием различных устройств захвата видеоинформации в том числе и 3D. Видео и аудиоданные записывались с цифровых камер мобильных устройств и сенсора захвата 3D (сенсор глубины), которые синхронизировались между собой. Необходимость данной разработки обусловлена потребностью сбора разноракурсных и в тоже время многомодальных визуальных данных для дальнейших экспериментов. В рамках предложенной архитектуры разработанного программного обеспечения диктор (человек страдающий полной глухотой или испытывающий проблемы со слухом) рассматривается, как основной источник визуальной информации. Все полученные данные хранятся на локальном сервере. 3) Аннотирован многомодальный корпус элементов русского жестового языка, состоящий из собранных открытых 2D видеоданных носителей русского жестового языка и новых записанных 2D и 3D видеоданных. Новые данные записывались с применением разработанного программного обеспечения. 4) Подготовлен цикл научных публикаций по результатам проекта. В частности, в российском журнале “Информационно-управляющие системы”, который входит в квартиль Q3 по Scopus и рекомендован ВАК, опубликована работа, посвященная подробному обзору методов и проведению сравнительного анализа существующих подходов в области автоматического распознавания жестов и жестовых языков. В российском журнале “Научно-технический вестник информационных технологий, механики и оптики”, входящем в перечень ВАК и Scopus, принята статья, раскрывающая метод автоматического распознавания жестовой информации, основанный на интегральной нейросетевой модели, которая анализирует пространственно-временные визуальные признаки: 2D и 3D расстояния от лица до руки; площадь пересечения лица и руки; конфигурации рук; гендерную и возрастную информации о дикторе. 5) Кроме того, результаты данного проекта РНФ активно освещались в СМИ. Информационно-сервисный интернет-портал “Научная Россия” опубликовал интервью с руководителем проекта Д.А. Рюминым “Ученые обучили нейросеть распознавать русский язык жестов по видеозаписям с помощью алгоритмов искусственного интеллекта” [https://scientificrussia.ru/articles/ucenye-obucili-nejroset-raspoznavat-russkij-azyk-zestov-po-videozapisam-s-pomosu-algoritmov-iskusstvennogo-intellekta], а инернет-издание “Российская академия наук” опубликовало интервью под заголовком “Ученые СПб ФИЦ РАН обучили нейросеть распознавать русский язык жестов по видеозаписям” [http://www.ras.ru/news/shownews.aspx?id=95281e84-d22b-463d-8d2f-9e11e7473f55]. Все выполненные работы и полученные научные результаты полностью соответствуют цели и перевыполняют заявленные задачи проекта РНФ.

Публикации

1. Аксёнов А.А., Кагиров И.А., Рюмин Д.А. Метод многомодального машинного сурдоперевода для естественного человеко-машинного взаимодействия Научно-технический вестник информационных технологий, механики и оптики, - (год публикации - 2022)

2. Рюмин, Д.А., Кагиров, И.А., Аксёнов, А.А., Карпов, А.А. Аналитический обзор моделей и методов автоматического распознавания жестов и жестовых языков Информационно-управляющие системы, № 6, C. 10-20 (год публикации - 2021) https://doi.org/10.31799/1684-8853-2021-6-10-20

3. - Ученые СПб ФИЦ РАН обучили нейросеть распознавать русский язык жестов по видеозаписям Российская академия наук, Электронное издание (год публикации - )

4. - Ученые обучили нейросеть распознавать русский язык жестов по видеозаписям с помощью алгоритмов искусственного интеллекта Научная Россия, Электронное издание (год публикации - )

Аннотация результатов, полученных в 2022 году
На втором этапе проекта коллективом исполнителей были получены следующие основные научные результаты: Разработан и отлажен комплекс программного обеспечения (ПО), который также включает усовершенствованное математическое обеспечение для системы автоматического распознавания, перевода с русского жестового языка (РЖЯ) в текстовое представление. На данный комплекс ПО получено Свидетельство о государственной регистрации программы для ЭВМ RU № 2023615977 от 21.03.2023. Архитектура разработанного ПО включает в себя 8 программных модулей. Каждый модуль выполняет свою специфическую функцию в процессе распознавания жестов РЖЯ, обеспечивая интегрированный и согласованный подход к анализу и классификации жестовых данных. Пример работы разработанного ПО доступен по ссылке: https://youtu.be/clWOzffbpQI. Выполнены экспериментальные исследования, направленные на оценку системы машинного перевода жестов РЖЯ в текстовое представление. Оценка системы включала три этапа: выбор оптимальных нейросетевых моделей, определение параметров входного изображения и применение методов аугментации видеоданных. Для обучения нейросетевых моделей был использован специально собранный корпус с жестами РЖЯ, который был записан и аннотирован в рамках первого этапа работы над проектом. Важной особенностью этого корпуса является то, что каждый жест сопровождается артикуляцией губ, что предоставляет дополнительные статистические характеристики для интеллектуального анализа. Эксперименты по оптимизации нейросетевых моделей для распознавания жестов РЖЯ были сосредоточены на выборе набора пространственно-временных признаков из жестов. В этот набор включались такие признаки, как расстояния от лица до рук (двумерные и трехмерные), области пересечения лица и рук, зоны расположения рук, а также оценка возраста и пола человека. Также были использованы уменьшенные признаки из конфигураций рук и областей губ с применением методов снижения размерности, таких как PCA (от англ. Principal Component Analysis), LDA (от англ. Linear Discriminant Analysis) и t-SNE (от англ. t-distributed Stochastic Neighbor Embedding). Результаты экспериментов показали, что использование метода уменьшения размерности LDA с 10 признаками для представления пространственно-временных признаков достигает максимальной точности распознавания 86 жестов РЖЯ, которая составляет 93,8%. Извлеченные с помощью интегральной нейросетевой модели E2Ev2 конфигурации рук оказались важными признаками для успешного распознавания жестов, и чем больше признаков анализируется, тем выше процент распознавания. Затем в набор признаков были добавлены признаки из конфигураций областей губ, извлеченные с использованием модели 2DCNN+BiLSTM. Использование метода уменьшения размерности LDA с 5 признаками для представления областей губ привело к увеличению точности распознавания жестов до 96,3%. Это означает, что наилучшая точность распознавания жестов РЖЯ достигается при использовании комплексного набора пространственно-временных признаков. Таким образом, результаты экспериментальных исследований подтверждают, что разработанный комплект ПО для интеллектуального анализа и распознавания жестов РЖЯ на основе многомодальных видеоданных обладает высокой точностью распознавания. Система базируется на использовании нейросетевых моделей и комплексировании различных пространственно-временных признаков, включая конфигурации рук и области губ. Благодаря этому удалось достичь точности распознавания 86 жестов РЖЯ на уровне 96,3%. Подготовлен цикл научных публикаций по результатам проекта. В частности, в российском журнале “Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация”, который рекомендован ВАК, и входит в перечень RCSI была опубликована работа, посвященная подробному обзору цифровой базы данных (корпус) РЖЯ. Корпус содержит записи высказываний в тематической области “Первичный прием у врача-терапевта”. Данная статья представляет интерес не только с точки зрения технологий глубокого машинного обучения, но и с лингвистической точки зрения, так как иллюстрирует синтагматические явления в слитной жестовой речи, аналогичные фонетической синтагматике в речи. Статья описывает принципы создания корпуса, процесс ее формирования и записи, а также систему аннотирования. Корпус содержит слитные высказывания и элементы РЖЯ, а не калькирующую речь. Он декомпозирует записанные жесты на компоненты движения и удержания, что позволяет использовать его для создания различных нейросетевых моделей для распознавания, как статических, так и динамических жестов РЖЯ. Корпус также отражает вариативность жестов, спонтанное переключение между информативными частями жестов и маусинг, и может служить инструментом для исследования диалектной вариативности в РЖЯ. Кроме того, в международном журнале Sensors с импакт-фактором WoS (квартиль Q2), Scopus SJR = 0,764 (квартиль Q1) была опубликована статья, посвященная аудиовизуальному распознаванию речи для надежного распознавания речи в условиях шума, а также распознаванию жестов. В данной работе представлены две модели глубоких нейросетей: одна для аудиовизуального распознавания речи и одна для распознавания жестов. В модели распознавания жестов используется уникальный набор пространственно-временных признаков, учитывающих артикуляцию губ. Также по результатам участия в 5-й международной конференции PSBB23 (International workshop on Photogrammetric techniques for environmental and infraStructure monitoring, Biometry and Biomedicine, Scopus) была принята к печати статья, в которой предлагается новый метод для улучшения точности автоматического распознавания жестов путем применения техники переноса обучения между разными языками с использованием визуальной информации. Дополнительно, результаты данного проекта РНФ активно освещались в СМИ. Российский научный фонд опубликовал интервью с руководителем проекта Д.А. Рюминым “В Санкт-Петербурге создали систему для общения врачей с глухими пациентами” [https://rscf.ru/news/presidential-program/v-sankt-peterburge-sozdali-sistemu-dlya-obshcheniya-vrachey-s-glukhimi-patsientami/?sphrase_id=146658]. Министерство науки и высшего образования Российской Федерации опубликовало интервью под заголовком “Новая интеллектуальная система поможет врачам общаться с глухими пациентами” [https://minobrnauki.gov.ru/press-center/news/nauka/63671/]. Общероссийская Общественная Организация инвалидов “Всероссийское Общество Глухих” (ВОГ) опубликовала электронную статью “Создан комплекс распознавания РЖЯ для врачей” [https://voginfo.ru/society/2023/02/03/sozdan-kompleks-raspoznavanija-rzhja-dlja-vrachej/]. Информационно-сервисный интернет-портал “Научная Россия” также опубликовал интервью “ Ученые СПб ФИЦ РАН разработали интеллектуальную систему, помогающую врачам общаться с глухими пациентами” [https://scientificrussia.ru/articles/ucenye-spb-fic-ran-razrabotali-intellektualnuu-sistemu-pomogausuu-vracam-obsatsa-s-gluhimi-pacientami]. Кроме того, руководитель проекта Д.А. Рюмин рассказывал про разработки в рамках данного проекта на Телеканале Санкт-Петербург в программе “Утро в Петербурге” [https://tvspb.ru/programs/stories/3024882].

Публикации

1. Кагиров И.А., Рюмин Д.А. База данных русского жестового языка поликлинического предназначения: лингвистические особенности материала и аннотирования Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация, Новосибирск, Т. 20, № 3, С. 90-108 (год публикации - 2022) https://doi.org/10.25205/1818-7935-2022-20-3-90-108

2. Рюмин Д., Иванько Д., Аксёнов А. CROSS-LANGUAGE TRANSFER LEARNING USING VISUAL INFORMATION FOR AUTOMATIC SIGN GESTURE RECOGNITION International workshop on Photogrammetric techniques for environmental and infraStructure monitoring, Biometry and Biomedicine, - (год публикации - 2023)

3. Рюмин Д.А., Иванько Д.В., Рюмина Е.В. Audio-Visual Speech and Gesture Recognition by Sensors of Mobile Devices Sensors, 23, 4:2284, 1-29 (год публикации - 2023) https://doi.org/10.3390/s23042284

4. Рюмин Дмитрий Александрович Программное обеспечение интеллектуального анализа и распознавания элементов русского жестового языка на основе многомодальных видеоданных -, 2023615977 (год публикации - )

5. - В Санкт-Петербурге создали систему для общения врачей с глухими пациентами Российский научный фонд, Электронное издание (год публикации - )

6. - Новая интеллектуальная система поможет врачам общаться с глухими пациентами Министерство науки и высшего образования Российской Федерации, Электронное издание (год публикации - )

7. - Ученые СПб ФИЦ РАН разработали интеллектуальную систему, помогающую врачам общаться с глухими пациентами Научная Россия, Электронное издание (год публикации - )

8. - Создан комплекс распознавания РЖЯ для врачей ОБЩЕРОССИЙСКАЯ ОБЩЕСТВЕННАЯ ОРГАНИЗАЦИЯ ИНВАЛИДОВ "ВСЕРОССИЙСКОЕ ОБЩЕСТВО ГЛУХИХ" (ВОГ), Электронное издание (год публикации - )

9. - Вместо сурдопереводчика. Петербургские учёные работают над цифровым переводчиком с жестового языка Телеканал Санкт-Петербург, Программа "Утро в Петербурге" (год публикации - )

Возможность практического использования результатов
В ходе данного проекта было разработано новое математическое и программное обеспечение для записи многомодального корпуса с компонентами РЖЯ. Это позволило собрать и аннотировать новый многомодальный корпус медицинской тематики и разработать на его основе методы и подходы к интеллектуальному анализу и распознаванию элементов РЖЯ. Таким образом, первостепенно полученные результаты найдут свое практическое использование в медицинских учреждениях для обслуживания пациентов с нарушениями слуха. Врачи и медицинский персонал смогут легче и точнее взаимодействовать с такими пациентами, используя жестовый язык или получая текстовые записи перевода жестовых сообщений. Это улучшит коммуникацию, поможет в точном понимании симптомов и диагноза, и обеспечит более качественное предоставление медицинской помощи и снизит возможность ошибок в диагностике и лечении. Важность результатов в сфере медицины и здравоохранения также подкрепляется интересом, вызванным со стороны СМИ. Кроме того, полученные результаты могут способствовать более широкой социальной интеграции и повышению доступности для людей с нарушениями слуха, что позволит им активно участвовать в различных общественных мероприятиях, семинарах, конференциях и культурных мероприятиях. Благодаря разработанным методам и подходам к автоматическому распознаванию жестового языка люди с нарушением слуха смогут лучше понимать и быть понятыми в различных социальных контекстах. Стоит отметить, что для людей с нарушением слуха возможность использования разработанных метод и подходов к автоматическому распознаванию жестового языка в экономике открывает новые возможности для трудовой интеграции. Они смогут успешно осуществлять свои профессиональные обязанности, общаться с коллегами и клиентами, и достигать успеха в различных сферах деятельности, несмотря на языковые барьеры. Разработанные методы могут быть интегрированы в образовательные учреждения для обучения детей и взрослых с нарушениями слуха. Это поможет им активно участвовать в учебном процессе, задавать вопросы и общаться с преподавателями и одноклассниками. Такие методы позволят обучающимся с нарушениями слуха получать полноценное образование наравне с остальными учащимися. Наконец, результаты, полученные в рамках проекта, могут быть использованы для создания новых устройств и приложений. Это включает умные устройства, виртуальные помощники, системы автоматического перевода и другие инновационные продукты, которые помогают обеспечить лучшую коммуникацию и доступность для людей с нарушениями слуха. В целом, использование разработанных метод и подходов к автоматическому распознаванию жестового языка приводит к более эффективной коммуникации, повышению доступности и инклюзивности в экономике и социальной сфере. Она способствует устранению языковых преград, повышает уровень взаимодействия между людьми с разными языковыми способностями и способствует созданию более инклюзивного и равноправного общества. Таким образом, полученные в проекте научно-технические результаты относятся к областям «аффективных технологий» и «аффективных вычислений», что в свою очередь соответствует целям и задачам Концепции научно-технологического развития Санкт-Петербурга на период до 2030 года, социально-экономическому развитию Санкт Петербурга до 2035 года, а также приоритетному направлению стратегии научно-технического развития Российской Федерации «Переход к передовым цифровым, интеллектуальным производственным технологиям, роботизированным системам, новым материалам и способам конструирования, создание систем обработки больших объемов данных, машинного обучения и искусственного интеллекта».