Разработка и исследование интегральной системы распознавания аудиовизуальной речи с использованием глубоких нейронных сетей

КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

ОБЩИЕ СВЕДЕНИЯ

Номер проекта 21-71-00132

НазваниеРазработка и исследование интегральной системы распознавания аудиовизуальной речи с использованием глубоких нейронных сетей

Руководитель Иванько Денис, Кандидат технических наук

Организация финансирования, регион Федеральное государственное бюджетное учреждение науки "Санкт-Петербургский Федеральный исследовательский центр Российской академии наук" , г Санкт-Петербург

Конкурс №60 - Конкурс 2021 года «Проведение инициативных исследований молодыми учеными» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах; 01-202 - Интеллектуальный анализ данных и распознавание образов

Ключевые слова Речевые технологии, автоматическое чтение речи по губам диктора, машинное обучение, искусственный интеллект, аудиовизуальная речь, автоматическое распознавание речи, распознавание образов, интегральные системы распознавания речи, глубокие нейронные сети

Код ГРНТИ28.23.15, 28.23.37

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ

Аннотация
На сегодняшний день, системы автоматического распознавания звучащей речи получили широкое распространение в повседневной жизни. Например, "Speech API" от Google, "Siri" от Apple или "Cortana" от Microsoft. Тем не менее, область применения таких систем (полагающихся на обработку исключительно аудиомодальности) весьма ограничена. В акустически шумных условиях (на улице, на вокзале, за рулем автомобиля, в метро и т.п.) точность распознавания речи таких систем стремительно ухудшается, не смотря на использование современных алгоритмов шумоподавления. Как хорошо известно, речь является результатом согласованной работы органов речеобразования человека (голосовых связок, гортани, легких, губ и языка), и устная речь передается одновременно по звуковому и визуальному каналам (модальностям). В ходе комплексного процесса понимания речи органы слуха (уши) воспринимают звуки, в то время как глаза видят движения губ и органов лица (глаз, бровей и т.д.) и вся эта информация объединяется в мозгу человека в единое представление смысла высказывания. Для того чтобы повысить качество распознавания (точность и робастность) предлагается разработать интегральную (англ. End-to-end) систему аудиовизуального распознавания речи на базе глубоких нейронных сетей. Такая система интегрирует методы анализа аудиосигнала и методы машинного зрения для автоматического чтения речи по губам говорящего. Интегральные системы автоматического распознавания речи объединяют в себе сразу все компоненты стандартных систем, тем самым сокращая время обработки и объем требуемой памяти. В настоящее время исследования, посвященные разработке интегральных систем, становятся очень популярными во всем мире, однако подобных исследований для аудиовизуальной русской речи не проводилось ни в России, ни за рубежом. В ходе данного проекта планируется разработать интегральную систему автоматического распознавания русской речи на базе глубоких искусственных нейронных сетей с различными архитектурами. На сегодняшний день не существует общепринятого подхода к разработке аудиовизуальных систем распознавания речи. Отсутствуют репрезентативные базы данных с открытым доступом для обучения моделей, которые бы обладали всеми необходимыми параметрами, такими как достаточное количество дикторов, фонемно-виземная временная разметка, адекватный задаче размер словаря и т.д. (практически нет общедоступных баз данных для языков, кроме английского). Отсутствуют исследования влияния скорости записи видеоданных на точность распознавания речи. Существует мало исследований о влиянии акустически шумных условий на производительность аудиовизуальных систем распознавания речи и мало работ посвящены анализу флективных языков (таких как русский). Опираясь на вышеизложенное, можно с уверенностью констатировать существенный пробел в научных исследованиях в отношении автоматического распознавания аудиовизуальной речи. Разработка и исследование интегральной системы распознавания речи на основе глубоких нейронных сетей в конечном итоге позволит приблизить эффективность распознавания автоматических систем к уровню восприятия речи людьми, что является крайне актуальной задачей. В ходе данного проекта ожидается получить принципиально новые научно-технические результаты и решения по аудиовизуальной распознаванию русской речи, которые окажут существенное влияние на дальнейшее развитие российских речевых технологий. Разработка интегральных систем является новым направлением в области автоматического распознавания речи. Научная новизна исследования состоит в разработке принципиально новых и модификации существующих методов, алгоритмов и математических моделей, использование которых позволить достичь заявленной цели. К планируемым результатам научных исследований следует также отнести подготовку и издание цикла научных публикаций (не менее 4 опубликованных статей в 2021-23 гг.) в ведущих российских и зарубежных научных журналах, индексируемых в Web of Science и/или Scopus и трудах международных конференций по данной тематике. Создаваемая интегральная система распознавания аудиовизуальной речи может быть в дальнейшем использована во многих разработках и технологиях, имеющих прикладное коммерческое назначение, в том числе в автоматизированных телефонных контакт-центрах, в интеллектуальных мобильных приложениях на базе смартфонов, системах речевого и многомодального человеко-машинного взаимодействия и диалоговых системах

ОТЧЁТНЫЕ МАТЕРИАЛЫ