КАРТОЧКА ПРОЕКТА,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ
Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.
ОБЩИЕ СВЕДЕНИЯ
Номер 21-71-00141
НазваниеИсследование и разработка новых методов и подходов к автоматическому распознаванию жестовых языков
РуководительРюмин Дмитрий Александрович, Кандидат технических наук
Организация финансирования, регионФедеральное государственное бюджетное учреждение науки "Санкт-Петербургский Федеральный исследовательский центр Российской академии наук", г Санкт-Петербург
Срок выполнения при поддержке РНФ | 07.2021 - 06.2023 |
КонкурсКонкурс 2021 года «Проведение инициативных исследований молодыми учеными» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными
Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-726 - Системы и технологии интеллектуального анализа данных и распознавания образов
Ключевые словаассистивные технологии, человеко-машинное взаимодействие, многомодальные данные, жестовый язык, компьютерное зрение, машинное обучение, искусственный интеллект
Код ГРНТИ20.19.29, 50.10.43, 50.33.05
ИНФОРМАЦИЯ ИЗ ЗАЯВКИ
Аннотация
Создание систем искусственного интеллекта, способных к распознаванию естественных, в т.ч. и жестовых языков, является одной из ключевых задач в современном информационном обществе. В связи с этим ученые мировых научных центров уделяют внимание машинной обработке языка и проблемам автоматического перевода с одного языка на другой. Решение задачи по распознаванию жестов относится к другой важной сфере - автоматическому распознаванию образов и машинному зрению, и полученные при решении этой задачи результаты будут иметь значительный инновационный потенциал. Полученные в ходе проекта данные будут чрезвычайно важны еще и потому, что будут способствовать повышению качества жизни людей с ограниченными возможностями здоровья, в частности, инвалидов по слуху.
Машинный перевод с жестовых языков сопряжен с еще большими сложностями, чем обработка звучащих языков, благодаря дополнительной задаче распознавания динамических жестов. Причиной являются факторы, относящиеся к проблемам компьютерного зрения: окклюзии, различия в фоновом освещении, необходимость привлечения больших вычислительных ресурсов, недостаточный объем наборов данных. В отличие от звучащих языков, жестовые языки по своей природе визуальны, и структура высказывания на любом жестовом языке мира, как правило, нелинейна: при коммуникации зачастую оказываются активны сразу несколько артикуляторов (руки, голова, туловище), жесты демонстрируются одновременно и имеют привязку к разным координатам жестового пространства.
Таким образом, заявленная проблема, на решение которой направлено данное исследование, принадлежит как к сфере компьютерного зрения, так и лингвистики жестовых языков, подразумевая поиск эффективных решений, позволяющих интерпретировать высказывания на жестовых языках с привлечением методов компьютерного зрения и математической лингвистики.
Настоящий проект содержит две основные научные задачи:
1) Разработка методов и системы автоматического распознавания жестов русского жестового языка.
2) Система автоматической интерпретации высказывания на жестовом языке и перевода на русский язык (текстовое представление).
Одна из основных задач автоматического распознавания жестовых языков (и жестов) лежит в области компьютерного зрения. Иными словами, для анализа высказываний на жестовом языке предварительно требуется система, с высокой точностью идентифицирующая жесты. Проблема распознавания жестов хоть и коррелирует с проблемой распознавания жестового языка, но конечные цели в обоих случаях разные; в первом случае речь идет о создании робастных систем компьютерного зрения, во втором - о задаче автоматического распознавания естественного языка.
Вторая задача подразумевает формального описания фонетики (элементов отдельных жестов), грамматики (морфология, синтаксис) и прагматических (иллокуция) аспектов русского жестового языка с представлением высказываний в виде метаязыка для перевода. Проблема эффективности распознавания жестов до сих пор не решена из-за серьезных различий в семантико-синтаксической структуре звучащих и жестовых языков. Для создания полноценных систем машинного перевода требуется глубокий семантический анализ и лингвистический разбор текстов на жестовых языках.
Обзор существующих научных работ и систем перевода с жестовых языков позволяет сделать вывод о том, что на сегодня полноценных систем перевода с жестовых языков не существует. Такое положение вещей обусловлено, в первую очередь, тем, что одна из основных задач автоматического распознавания жестовых языков (и жестов) лежит в области компьютерного зрения. Иными словами, для анализа высказываний на жестовом языке предварительно требуется система, с высокой точностью идентифицирующая жесты
Решение поставленных задач сопряжено с созданием математического и программного обеспечения, позволяющего с высокой точностью идентифицировать жесты в потоке речи и подразумевает активное использование методов машинного обучения. Кроме того, для создания полноценной системы машинного перевода с русского жестового языка авторы данного проекта должны будут собрать репрезентативную базу данных для русского жестового языка - как для лингвистического анализа, так и для обучения языковых моделей.
Ожидаемые результаты
Предлагаемый проект представляет собой комплексное междисциплинарное исследование, выполнение которого позволит решить ряд проблем машинного распознавания жестовых языков, а также машинного перевода с русского жестового языка в текстовое представление. Проект имеет значительный инновационный потенциал. Создание систем искусственного интеллекта, способных к распознаванию естественных, в т.ч. и жестовых языков, является одной из ключевых задач в современном информационном обществе. В связи с этим ученые мировых научных центров уделяют внимание машинной обработке языка и проблемам автоматического перевода с одного языка на другой. Решение задачи по распознаванию жестов относится к другой важной сфере - автоматическому распознаванию образов и машинному зрению, и полученные при решении этой задачи результаты будут иметь значительный инновационный потенциал. Полученные в ходе проекта данные будут чрезвычайно важны еще и потому, что будут способствовать повышению качества жизни людей с ограниченными возможностями здоровья, в частности, инвалидов по слуху.
В результате проекта предполагается создание нового математического, программного и информационно-лингвистического обеспечения, позволяющего распознавать элементы жестовых языков (на примере русского жестового языка). Принципиально новыми являются:
1) Создание аннотированной многомодальной базы данных русского жестового языка, выполненной при помощи сенсора захвата видеоинформации;
2) Формальное описание фонетики (элементы отдельных жестов), грамматики (морфология, синтаксис) и прагматических (иллокуция) аспектов русского жестового языка с представлением высказываний в виде метаязыка для взаимного перевода - на сегодня не существует сколько-нибудь последовательного описания грамматики русского жестового языка, не говоря об онтологиях, пригодных для машинного перевода.
3) Создание эффективных методов автоматического распознавания РЖЯ и машинного перевода в текстовое представление.
ОТЧЁТНЫЕ МАТЕРИАЛЫ
Аннотация результатов, полученных в 2021 году
На первом этапе РНФ проекта коллективом исполнителей были получены следующие основные научные результаты:
1) Проведен расширенный аналитический обзор современной научно-технической литературы по тематике исследований. В ходе которого выявлено, что современные методы комплексного анализа движений человеческого тела (в том числе и машинный сурдоперевод для естественного человеко-машинного взаимодействия) на основе интегральных нейросетевых моделей могут уступать по скорости базовым подходам, однако существенно превосходить их в точности. В связи с этим можно сделать вывод, что методы многомодального видеоанализа движений рук для автоматического распознавания ручных жестов и элементов жестовых языков должны базироваться на анализе информативных пространственно-временных визуальных характеристик жеста в определенных момент времени с помощью предварительно обученной нейросетевой модели с долгой кратковременной памятью (от англ. Long Short-Term Memory, LSTM). Сеть LSTM является разновидностью рекуррентной нейронной сети, которая способна моделировать события или явления, зависящие от времени или последовательности (язык тела и жестов). Кроме того, имеет место также учитывать влияния дополнительных факторов (например, гендерных и возрастных характеристик диктора) на надежность автоматических систем распознавания как отдельных жестов, так и жестовых языков. На основании углубленного изучения и полученных знаний были разработаны новые “предварительные” математические средства (модели и методы) интеллектуального анализа и оценки важности влияния гендерных и возрастных характеристик диктора на автоматическое распознавание отдельных ручных жестов и элементов жестовых языков (машинный сурдоперевод). Получены результаты экспериментов (количественная оценка), доказывающие эффективность предложенных новых математических средств.
2) Разработано новое математическое и программное обеспечение для записи многомодального корпуса с компонентами русского жестового языка и использованием различных устройств захвата видеоинформации в том числе и 3D. Видео и аудиоданные записывались с цифровых камер мобильных устройств и сенсора захвата 3D (сенсор глубины), которые синхронизировались между собой. Необходимость данной разработки обусловлена потребностью сбора разноракурсных и в тоже время многомодальных визуальных данных для дальнейших экспериментов. В рамках предложенной архитектуры разработанного программного обеспечения диктор (человек страдающий полной глухотой или испытывающий проблемы со слухом) рассматривается, как основной источник визуальной информации. Все полученные данные хранятся на локальном сервере.
3) Аннотирован многомодальный корпус элементов русского жестового языка, состоящий из собранных открытых 2D видеоданных носителей русского жестового языка и новых записанных 2D и 3D видеоданных. Новые данные записывались с применением разработанного программного обеспечения.
4) Подготовлен цикл научных публикаций по результатам проекта. В частности, в российском журнале “Информационно-управляющие системы”, который входит в квартиль Q3 по Scopus и рекомендован ВАК, опубликована работа, посвященная подробному обзору методов и проведению сравнительного анализа существующих подходов в области автоматического распознавания жестов и жестовых языков. В российском журнале “Научно-технический вестник информационных технологий, механики и оптики”, входящем в перечень ВАК и Scopus, принята статья, раскрывающая метод автоматического распознавания жестовой информации, основанный на интегральной нейросетевой модели, которая анализирует пространственно-временные визуальные признаки: 2D и 3D расстояния от лица до руки; площадь пересечения лица и руки; конфигурации рук; гендерную и возрастную информации о дикторе.
5) Кроме того, результаты данного проекта РНФ активно освещались в СМИ. Информационно-сервисный интернет-портал “Научная Россия” опубликовал интервью с руководителем проекта Д.А. Рюминым “Ученые обучили нейросеть распознавать русский язык жестов по видеозаписям с помощью алгоритмов искусственного интеллекта” [https://scientificrussia.ru/articles/ucenye-obucili-nejroset-raspoznavat-russkij-azyk-zestov-po-videozapisam-s-pomosu-algoritmov-iskusstvennogo-intellekta], а инернет-издание “Российская академия наук” опубликовало интервью под заголовком “Ученые СПб ФИЦ РАН обучили нейросеть распознавать русский язык жестов по видеозаписям” [http://www.ras.ru/news/shownews.aspx?id=95281e84-d22b-463d-8d2f-9e11e7473f55].
Все выполненные работы и полученные научные результаты полностью соответствуют цели и перевыполняют заявленные задачи проекта РНФ.
Публикации
1. - Ученые СПб ФИЦ РАН обучили нейросеть распознавать русский язык жестов по видеозаписям Российская академия наук, Электронное издание (год публикации - ).
2. - Ученые обучили нейросеть распознавать русский язык жестов по видеозаписям с помощью алгоритмов искусственного интеллекта Научная Россия, Электронное издание (год публикации - ).
3. Аксёнов А.А., Кагиров И.А., Рюмин Д.А. Метод многомодального машинного сурдоперевода для естественного человеко-машинного взаимодействия Научно-технический вестник информационных технологий, механики и оптики, - (год публикации - 2022).
4. Рюмин, Д.А., Кагиров, И.А., Аксёнов, А.А., Карпов, А.А. Аналитический обзор моделей и методов автоматического распознавания жестов и жестовых языков Информационно-управляющие системы, № 6, C. 10-20 (год публикации - 2021).