КАРТОЧКА ПРОЕКТА,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ
Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.
ОБЩИЕ СВЕДЕНИЯ
Номер 21-71-00132
НазваниеРазработка и исследование интегральной системы распознавания аудиовизуальной речи с использованием глубоких нейронных сетей
РуководительИванько Денис Викторович, Кандидат технических наук
Организация финансирования, регионФедеральное государственное бюджетное учреждение науки "Санкт-Петербургский Федеральный исследовательский центр Российской академии наук", г Санкт-Петербург
Срок выполнения при поддержке РНФ | 07.2021 - 06.2023 |
КонкурсКонкурс 2021 года «Проведение инициативных исследований молодыми учеными» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными
Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-202 - Интеллектуальный анализ данных и распознавание образов
Ключевые словаРечевые технологии, автоматическое чтение речи по губам диктора, машинное обучение, искусственный интеллект, аудиовизуальная речь, автоматическое распознавание речи, распознавание образов, интегральные системы распознавания речи, глубокие нейронные сети
Код ГРНТИ28.23.15, 28.23.37
ИНФОРМАЦИЯ ИЗ ЗАЯВКИ
Аннотация
На сегодняшний день, системы автоматического распознавания звучащей речи получили широкое распространение в повседневной жизни. Например, "Speech API" от Google, "Siri" от Apple или "Cortana" от Microsoft. Тем не менее, область применения таких систем (полагающихся на обработку исключительно аудиомодальности) весьма ограничена. В акустически шумных условиях (на улице, на вокзале, за рулем автомобиля, в метро и т.п.) точность распознавания речи таких систем стремительно ухудшается, не смотря на использование современных алгоритмов шумоподавления. Как хорошо известно, речь является результатом согласованной работы органов речеобразования человека (голосовых связок, гортани, легких, губ и языка), и устная речь передается одновременно по звуковому и визуальному каналам (модальностям). В ходе комплексного процесса понимания речи органы слуха (уши) воспринимают звуки, в то время как глаза видят движения губ и органов лица (глаз, бровей и т.д.) и вся эта информация объединяется в мозгу человека в единое представление смысла высказывания.
Для того чтобы повысить качество распознавания (точность и робастность) предлагается разработать интегральную (англ. End-to-end) систему аудиовизуального распознавания речи на базе глубоких нейронных сетей. Такая система интегрирует методы анализа аудиосигнала и методы машинного зрения для автоматического чтения речи по губам говорящего. Интегральные системы автоматического распознавания речи объединяют в себе сразу все компоненты стандартных систем, тем самым сокращая время обработки и объем требуемой памяти. В настоящее время исследования, посвященные разработке интегральных систем, становятся очень популярными во всем мире, однако подобных исследований для аудиовизуальной русской речи не проводилось ни в России, ни за рубежом. В ходе данного проекта планируется разработать интегральную систему автоматического распознавания русской речи на базе глубоких искусственных нейронных сетей с различными архитектурами. На сегодняшний день не существует общепринятого подхода к разработке аудиовизуальных систем распознавания речи. Отсутствуют репрезентативные базы данных с открытым доступом для обучения моделей, которые бы обладали всеми необходимыми параметрами, такими как достаточное количество дикторов, фонемно-виземная временная разметка, адекватный задаче размер словаря и т.д. (практически нет общедоступных баз данных для языков, кроме английского). Отсутствуют исследования влияния скорости записи видеоданных на точность распознавания речи. Существует мало исследований о влиянии акустически шумных условий на производительность аудиовизуальных систем распознавания речи и мало работ посвящены анализу флективных языков (таких как русский).
Опираясь на вышеизложенное, можно с уверенностью констатировать существенный пробел в научных исследованиях в отношении автоматического распознавания аудиовизуальной речи. Разработка и исследование интегральной системы распознавания речи на основе глубоких нейронных сетей в конечном итоге позволит приблизить эффективность распознавания автоматических систем к уровню восприятия речи людьми, что является крайне актуальной задачей.
В ходе данного проекта ожидается получить принципиально новые научно-технические результаты и решения по аудиовизуальной распознаванию русской речи, которые окажут существенное влияние на дальнейшее развитие российских речевых технологий. Разработка интегральных систем является новым направлением в области автоматического распознавания речи. Научная новизна исследования состоит в разработке принципиально новых и модификации существующих методов, алгоритмов и математических моделей, использование которых позволить достичь заявленной цели. К планируемым результатам научных исследований следует также отнести подготовку и издание цикла научных публикаций (не менее 4 опубликованных статей в 2021-23 гг.) в ведущих российских и зарубежных научных журналах, индексируемых в Web of Science и/или Scopus и трудах международных конференций по данной тематике.
Создаваемая интегральная система распознавания аудиовизуальной речи может быть в дальнейшем использована во многих разработках и технологиях, имеющих прикладное коммерческое назначение, в том числе в автоматизированных телефонных контакт-центрах, в интеллектуальных мобильных приложениях на базе смартфонов, системах речевого и многомодального человеко-машинного взаимодействия и диалоговых системах
Ожидаемые результаты
В ходе выполнения проекта будет получен ряд принципиально новых научно-технических результатов: математическое, программное и информационное обеспечение для интегральной системы распознавания аудиовизуальной речи с использованием глубоких нейронных сетей. Основные ожидаемые научные результаты данного проекта следующие:
1) Расширенный аналитический обзор по теме аудиовизуального распознавания речи, включающий не менее 50 современных научных публикаций и иных источников информации, опубликованных за последние 7 лет.
2) Новое и усовершенствованное математическое обеспечение, включающее математические модели и методы, основанное на современных методах машинного обучения, в том числе глубоких нейронных сетях (deep neural networks) и методах интегрального (end-to-end) распознавания.
3) Новое и дополненное существующее информационно-лингвистическое обеспечение, включающее комплекс из нескольких речевых баз данных аудиовизуальной речи на различных языках с аннотацией и временной разметкой данных.
4) Новое и усовершенствованное программное обеспечение интегральной системы распознавания аудиовизуальной речи, включающее комплекс программ для ЭВМ на языках высокого уровня.
5) Результаты экспериментальных исследований интегральной системы распознавания аудиовизуальной речи с использованием подготовленных речевых корпусов. Данные результаты будут соответствовать передовому мировому уровню и в определенных аспектах его превосходить.
6) Подготовка и издание цикла научных публикаций (не менее 4 опубликованных статей в 2021-2023 гг.) по результатам работ в международных и российских журналах и трудах ведущих международных конференций по данной тематике, индексируемых в Web of Science/Scopus/РИНЦ, а также государственная регистрация РИД в Роспатенте.
Таким образом, в ходе данного проекта будет впервые получен ряд принципиально новых научно-технических результатов по автоматическому распознаванию аудиовизуальной речи, которые соответствуют передовому мировому уровню. Применение разрабатываемой интегральной системы аудиовизуального распознавания речи в ближайшем будущем даст возможность пользователям осуществлять эффективный вербальный диалог с информационно-справочными системами массового обслуживания. Актуально применение системы аудиовизуального распознавания речи в интеллектуальных информационных киосках, которые, как правило, устанавливаются в довольно многолюдны местах (вестибюлях, залах и т.д.), где невозможно соблюдать хорошие акустические условия. В окружающей обстановке с низким отношением аудиосигнал/шум визуальное распознавание речи позволит сохранить высокую точность распознавания слов и фраз. Интегральные системы распознавания речи имеют меньшее число компонент по сравнению со стандартными системами, в следствие чего демонстрируют более высокую скорость обучения и декодирования, а также меньший объем требуемой памяти. Поэтому такие модели возможно использовать на мобильных устройствах локально, без вычислений на удаленных серверах. При этом точность распознавания интегральных систем сравнима с точностью, получаемой в стандартных системах распознавания речи.
ОТЧЁТНЫЕ МАТЕРИАЛЫ
Аннотация результатов, полученных в 2021 году
В соответствии с заявленным планом работ на первом этапе проекта был выполнен (1) аналитический обзор современного состояния предметной области. Были рассмотрены три основных направления: автоматическое распознавание речи по аудиоинформации, автоматическое распознавание речи по видеоинформации (чтение речи по губам), и методы объединения аудиовизуальной информации. Проведенный комплексный обзор включает в себя анализ более 50-ти современных научных публикаций за последние 7 лет. Были выявлены основные тренды по каждому из направлений и определены перспективные методы и модели, которое будут исследоваться в ходе проекта. На сегодняшний день, представленный аналитический обзор является наиболее полным и не имеющим аналогов в научной литературе применительно к распознаванию аудиовизуальной речи.
Наряду с этим был осуществлен (2) сбор, анализ и обработка доступного информационно-лингвистического обеспечения (аудиовизуальных речевых баз данных на разных языках). Всего было проанализировано 48 баз данных, имеющихся в открытом доступе/упоминающихся в научных публикациях. Стоит отметить, что это практически все (!) имеющиеся в открытом доступе базы данных аудиовизуальной речи на сегодняшний день и наиболее полный их список, встречающийся в научной литературе. По сравнению с тысячами баз данных, имеющимися в наличии для распознавания акустической речи, количество аудиовизуальных баз данных критически мало. Большинство из упомянутых баз данных аудиовизуальной речи появились за последние 7 лет и подавляющее их количество включает в себя записи английской речи. Для других языков, кроме английского и, частично, китайского, аудиовизуальных речевых баз данных практически не существует.
Учитывая вышеизложенное, в рамках проекта было (3) усовершенствовано существующее и разработано новое математическое обеспечение для системы интегрального распознавания речи по аудио- и видеоинформации. Ключевой особенностью предложенной интегральной модели является объединение и адаптация наилучших известных решений из таких областей как компьютерное зрение, распознавание образов, автоматическое распознавание речи, применительно к задаче распознавания аудиовизуальной речи.
Основываясь на усовершенствованном математическом обеспечении, была (4) разработана базовая версия интегральной системы автоматического распознавания речи на базе глубоких нейронных сетей. Предложенные нейросетевые архитектуры моделей распознавания и система в целом были протестированы на эталонной базе данных английской речи LRW, где показали наилучшую на сегодняшний день точность распознавания речи по видеоинформации 88.7%, превзойдя все имеющиеся аналоги. Об этом в 2022 году будет доложено на 30-й Европейской конференции по обработке сигналов (Eusipco 2022), входящей в перечень «Top computer science conferences».
Можно выделить 8 основных особенностей разработанной интегральной системы распознавания аудиовизуальной речи, которые позволили добиться лучших в мире результатов распознавания на сегодняшний день: (а) для нахождения начала и конца речи используется детектор речевой активности Vosk. Это дает возможность избавиться от начальной и конечной тишины (когда она есть), (б) для поиска области рта используется алгоритм на основе MediaPipe, по сути представляющий собой активную модель внешнего вида, состоящую из 468 лицевых точек и позволяющую детектировать область рта с высокой степенью точности при угле поворота до 30-ти градусов, (в) предобработка включает несколько этапов: все входные изображения преобразуются в градации серого, затем нормализуются, после чего к ним применяется выравнивание гистограммы изображения, (г) для уменьшения переобучения и внесения меньшей уверенности в прогнозах к изображениям применялась техника аугментации данных MixUp с вероятностью 40%. Коэффициент объединения двух изображений варьировался от 30 до 70%, (д) для меток тех изображений, к которым не применялся MixUp, было применено их сглаживание (Label Smoothing), (е) для извлечения признаков использовалась модифицированная нейросеть 3DResNet-18 с добавлением модуля Squeeze-and-Attention, (ж) В заключении извлеченные признаки подавались на 2 слоя BiLSTM по 512 нейронов в каждом. Выходом первого слоя BiLSTM является sequence-to-sequence. Выходом второго слоя BiLSTM является sequence-to-one, (з) В процессе обучения использовалась техника планировщика скорости обучения - косинусный отжиг.
По результатам этапа проекта (5) опубликован цикл из 4-х научных статей индексируемых в базах данных Web of Science и/или Scopus: «Development of Visual and Audio Speech Recognition Systems Using Deep Neural Networks», «End-to-end Visual Speech Recognition for Human-Robot Interaction», «RUSAVIC Corpus: Russian Audio-Visual Speech in Cars», «Visual Speech Recognition in a Driver Assistance System». Достигнутые на первом этапе результаты РНФ проекта представлялись на двух международных конференциях: 1) 31st International Conference on Computer Graphics and Machine Vision «GraphiCon-2021», September 27-30, 2021, 2) XVII International Conference on Electromechanics and Robotics, April 12-14, 2022. Также имеются принятые статьи на 2 международные конференции, выступления на которых пройдут в 2022 году: 3) 13th International Conference on Language Resources and Evaluation, LREC 2022, June 20-25, France и 4) 30th European Signal Processing Conference, EUSIPCO 2022, Aug. 29 - Sep. 2, Serbia. При этом конференции LREC и EUROSIPCO относятся к листингу "Top Computer Science Conferences" международного портала https://research.com/. Достигнутые результаты автоматического распознавания речи по губам диктора превосходят все существующие аналоги не только для русской, но и для английской речи.
Все выполненные работы и полученные научные результаты полностью соответствуют цели и перевыполняют заявленные задачи проекта РНФ.
Публикации
1. Иванько Д.В., Рюмин Д.А. Development of Visual and Audio Speech Recognition Systems Using Deep Neural Networks CEUR Workshop Proceedings. GraphiCon 2021: 31th International Conference on Computer Graphics and Vision, vol. 3027, pp. 905-916 (год публикации - 2021).
2. Иванько Д.В., Рюмин Д.А., Аксенов А.А., Кашевник А.М., Карпов А.А. RUSAVIC Corpus: Russian Audio-Visual Speech in Cars LREC:13th Language Resources and Evaluation Conference., - (год публикации - 2022).
3. Иванько Д.В., Рюмин Д.А., Кашевник А.М., Аксенов А.А., Карпов А.А. Visual Speech Recognition in a Driver Assistance System EUSIPCO 2022: 30th European Signal Processing Conference, - (год публикации - 2022).
4. Иванько Д.В., Рюмин Д.А., Маркитантов М.В. End-to-end Visual Speech Recognition for Human-Robot Interaction AIP Conference Proceedings, - (год публикации - 2022).