Интеллектуальная система многомодального распознавания аффективных состояний человека

КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

ОБЩИЕ СВЕДЕНИЯ

Номер проекта 22-11-00321

НазваниеИнтеллектуальная система многомодального распознавания аффективных состояний человека

Руководитель Карпов Алексей Анатольевич, Доктор технических наук

Организация финансирования, регион Федеральное государственное бюджетное учреждение науки "Санкт-Петербургский Федеральный исследовательский центр Российской академии наук" , г Санкт-Петербург

Конкурс №68 - Конкурс 2022 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами»

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах; 01-726 - Системы и технологии интеллектуального анализа данных и распознавания образов

Ключевые слова речевые технологии, аудиовизуальные данные, многомодальная обработка, аффективные вычисления, компьютерная паралингвистика, автоматическое распознавание речи и эмоций, распознавание образов, цифровая обработка сигналов, обработка естественного языка, машинное обучение, искусственный интеллект

Код ГРНТИ50.10.41, 20.19.29, 16.31.21

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ

Аннотация
Данный междисциплинарный проект РНФ направлен на решение задач многомодального анализа и распознавания аффективных состояний людей по их поведению с использованием современных методов цифровой обработки сигналов и глубокого машинного обучения. Проблема аффективных вычислений является очень актуальной и значимой с научно-технической и практической точек зрения. В этой области имеется множество нерешенных проблем, при этом практическое применение систем распознавания аффективных состояний человека исключительно по одномодальным данным (например, только по аудио- или видеоданным) имеет ряд существенных ограничений. Наиболее естественным способом взаимодействия и обмена информацией для человека является многомодальное общение, которое задействует несколько модальностей (каналов взаимодействия) одновременно, в том числе естественную речь и звуки, мимику и артикуляцию лица, жесты рук и тела, направление взгляда, общее поведение, текстовую информацию и т.д. Многомодальные системы анализа аффективных состояний человека имеют значительные преимущества перед одномодальными методами, позволяя проводить анализ в сложных условиях зашумленности одного из каналов передачи информации (акустический шум или недостаток освещения), а также при полном отсутствии информации в одном из каналов (человек молчит или не обращен к камере). Кроме того, многомодальный анализ позволяет зачастую распознавать и такие неоднозначные аффективные явления, как сарказм и ирония, которые характеризуются явным несовпадением смысла высказывания (анализ текста) с интонацией голоса (анализ аудио) и мимикой лица (анализ видео). Поэтому одновременный анализ нескольких составляющих человеческого поведения (речь, мимика, жесты, направление взгляда, текстовые транскрипции высказываний) позволит повысить качество работы и точность распознавания автоматических систем анализа аффективных состояний в таких задачах, как распознавание эмоций, сентимента, агрессии, депрессии и т.д. Все эти задачи имеют важное практическое значение в области технологий эмоционального искусственного интеллекта (Emotional AI), а также в психологии, медицине, банковской сфере, судебно-криминалистической сфере, когнитивных науках и т.д. Они имеют высокую научно-техническую, а также социальную и экономическую значимость. Несмотря на явные преимущества многомодального распознавания аффективных состояний по сравнению с одномодальным анализом, такой тип анализа является значительно более сложной задачей, требующей решения дополнительных проблем, связанных с синхронизацией нескольких разнородных типов сигналов во времени. Известно, что визуальная модальность всегда несколько опережает акустическую модальность, например улыбка появляется на лице человека до того, как он начинает произносить соответствующие звуки речи с радостной окраской. Природа возникновения информации различных модальностей взаимодействия (аудио, видео и текст) и частота обновления векторов признаков в каждом типе данных отличается, поэтому в рамках многомодального подхода необходимо решить ряд сопутствующих задач, связанных с синхронизацией и объединением нескольких модальностей. В ходе работы над проектом будут разработаны новые модели, методы, алгоритмы и программные решения многомодального распознавания аффективных состояний человека, отвечающие современным требованиям и стандартам в данной области и находящиеся на передовом мировом уровне. Будут решены новые актуальные задачи, связанные с автоматической обработкой голосовых характеристик, мимики и изображений людей, анализом текстовых транскрипций речевых высказываний, а также объединением нескольких модальностей (аудио, видео и текст) для комплексного многомодального анализа аффективных состояний, в том числе в задачах автоматического распознавания эмоций, сентимента, агрессии и депрессии. Будут исследованы важные проблемы многомодального анализа информации: распознавание отдельных аффективных состояний, а также многозадачные и иерархические подходы к распознаванию нескольких аффективных состояний одновременно, эффективность различных подходов к объединению модальностей (аудио, видео и текст), определение лидирующей доминирующей модальности и т.д. Основным результатом данного проекта должна стать интеллектуальная система многомодального распознавания аффективных состояний человека на основе комплексного анализа акустических характеристик голоса, мимики лица человека, а также лингвистических составляющих его речевых высказываний. Научная значимость планируемых результатов проекта заключается в совершенствовании методов аффективных вычислений, улучшении качества распознавания различных аффективных состояний, повышении степени готовности разрабатываемых продуктов к практическому внедрению, а также в обмене знаниями и опытом с иностранными коллегами и популяризации этой научной области в СМИ. Результаты, которые планируется получить в ходе выполнения проекта, будут не только соответствовать мировому уровню развития технологий аффективных вычислений, но также будут направлены на обработку различных естественных языков, в том числе русского. На сегодняшний день исследования аффективных состояний, ориентированные на русский язык и речь, значительно отстают по количеству и качеству от исследований, ориентированных на другие мировые языки, особенно английский и китайский. Поэтому разрабатываемая интеллектуальная система позволит существенно приблизить технологии обработки русского языка и речи к уровню современных зарубежных исследований и разработок. Кроме того, значительным двигателем прогресса в области аффективных вычислений и компьютерной паралингвистики являются различные международные соревнования, предоставляющие новые многомодальные базы данных и задающие стандарты в данной области на мировом уровне. Поэтому в ходе проекта планируется участие в нескольких соревнованиях по аффективным вычислениям и компьютерной паралингвистике, предполагающих многомодальный анализ поведения человека, например: Emotion Recognition in the Wild Challenge – EmotiW в рамках международной конференции ACM International Conference on Multimodal Interaction ICMI; Audio/Visual Emotion Challenge – AVEC в рамках международной конференции ACM Multimedia; Affective Behavior Analysis in-the-wild – ABAW в рамках международной конференции IEEE International Conference on Automatic Face and Gesture Recognition; а также Computational Paralinguistics Challenge – ComParE в рамках международной конференции INTERSPEECH, в которых мы уже неоднократно побеждали в 2015-2020 годах. Актуальность и масштабность задач, которые мы предполагаем решить в данном проекте, находятся на передовом мировом уровне. В целях решения поставленных задач будут применены и исследованы самые современные методы и технологии глубокого машинного обучения и искусственного интеллекта, предполагающие анализ аффективных состояний и поведения людей, в том числе их высказывания на различных естественных языках (русском, английском и др.). Практическая и научно-техническая значимость поставленных в проекте задач подтверждается высоким спросом на разрабатываемые технологии на рынке речевых и многомодальных технологий, биометрии и искусственного интеллекта в целом, включая развитие области эмоционального искусственного интеллекта, а также большим количеством зарубежных научных публикаций, посвященных данной теме (например, в международных журналах IEEE Transactions on Affective Computing, Journal on Multimodal User Interfaces, Multimodal Technologies and Interaction, Neurocomputing, Speech Communication, и др.). Ежегодное проведение нескольких международных соревнований по аффективным вычислениям и компьютерной паралингвистике, посвященных многомодальному распознаванию целого спектра аффективных и паралингвистических явлений, также доказывает высокий спрос и необходимость совершенствования существующих решений. Новизна запланированных задач в рамках проекта очевидна, так как на данный момент не существует интеллектуальной системы комплексного многомодального анализа аффективных состояний и поведения людей на основе аудио, видео и текстовых модальностей для одновременного предсказания нескольких аффективных состояний, в том числе эмоций, сентимента, агрессии и депрессии.

ОТЧЁТНЫЕ МАТЕРИАЛЫ

Публикации

1. Двойникова А.А., Маркитантов М.В., Рюмина Е.В., Уздяев М.Ю., Величко А.Н., Рюмин Д.А., Ляксо Е.Е, Карпов А.А. Анализ информационного и математического обеспечения для распознавания аффективных состояний человека Информатика и автоматизация, Т. 21, № 6, С. 1097-1144. (год публикации - 2022)
10.15622/ia.21.6.2

2. Мамонтов Д.В., Минкер В., Карпов А.А. Self-Configuring Genetic Programming Feature Generation in Affect Recognition Tasks Lecture Notes in Computer Science, Vol. 13721, pp. 464–476 (год публикации - 2022)
10.1007/978-3-031-20980-2_40

3. Рюмина Е.В., Иванько Д.В. Emotional Speech Recognition Based on Lip-Reading Lecture Notes in Computer Science, LNCS vol. 13721, pp. 616–625. (год публикации - 2022)
10.1007/978-3-031-20980-2_52

4. Двойникова А.А., Маркитантов М.В., Рюмина Е.В., Уздяев М.Ю., Величко А.Н., Кагиров И.А., Кипяткова И.С., Ляксо Е.Е., Карпов А.А. An analysis of automatic techniques for recognizing human's affective states by speech and multimodal data Proceedings of the 24th International Congress on Acoustics ICA-2022, ICA-2022, Том A15 Speech, pp. 22-33, Scopus EID 2-s2.0-85192522639 (год публикации - 2022)

5. Величко А.Н. Разработка метода анализа речевого сигнала для автоматического определения агрессии в разговорной речи Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии, № 4, С. 180-188. (год публикации - 2022)
10.17308/sait/1995-5499/2022/4/180-188

Публикации

1. Рюмина Е.В., Маркитантов М.В., Карпов А.А. Multi-Corpus Learning for Audio–Visual Emotions and Sentiment Recognition Mathematics, Vol. 11, № 16, ID 3519 (год публикации - 2023)
10.3390/math11163519

2. Рюмина Е.В., Карпов А.А. Impact of visual modalities in multimodal personality and affective computing The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, Vol. XLVIII-2/W3-2023. pp. 217–224. (год публикации - 2023)
10.5194/isprs-archives-XLVIII-2-W3-2023-217-2023

3. Карпов А.А., Двойникова А.А., Рюмина Е.В. Intelligent Interfaces and Systems for Human-Computer Interaction Lecture Notes in Networks and Systems, vol. 776, pp. 3-13 (год публикации - 2023)
10.1007/978-3-031-43789-2_1

4. Двойникова А.А., Карпов А.А. Bimodal sentiment and emotion classification with multi-head attention fusion of acoustic and linguistic information Компьютерная лингвистика и интеллектуальные технологии (ДИАЛОГ 2023), vol. 1, pp. 51-61 (год публикации - 2023)
10.28995/2075-7182-2023-22-51-61

5. Величко А.Н., Карпов А.А. Методика и программная система интегрального анализа деструктивных паралингвистических явлений в разговорной речи Информационно-управляющие системы, 2023. № 4. C. 2-11 (год публикации - 2023)
10.31799/684-8853-2023-4-2-11

6. Иванько Д., Рюмина Е.В., Рюмин Д.А., Аксенов А.А., Кашевник А.М., Карпов А.А. EMO-AVSR: Two-Level Approach for Audio-Visual Emotional Speech Recognition Lecture Notes in Computer Science, LNCS vol. 14338, pp. 18-31 (год публикации - 2023)
10.1007/978-3-031-48309-7_2

7. Двойникова А.А., Кондратенко К.О. Сравнение методов предобработки текстовых данных для автоматического распознавания эмоций Известия высших учебных заведений. Приборостроение, Т. 66, № 10. С. 818-827 (год публикации - 2023)
10.17586/0021-3454-2023-66-10-818-827

Аннотация результатов, полученных в 2024 году
На заключительном этапе разработано и исследовано математическое и программное обеспечения для обработки многомодальных данных, создана интеллектуальная система анализа аффективных состояний человека, выполняющая распознавание одновременно нескольких аффективных состояний. Получены следующие основные научные результаты: 1) Метод распознавания вербальной и физической агрессии на основе механизма маскированного самовнимания. Механизм самовнимания посредством формирования специальной маски исключает из обработки определенные векторы признаков отсутствующих модальностей. Данный метод учитывает особенности сочетания различных модальностей и корректно обрабатывает ситуации с отсутствующими модальностями, что позволяет гибко реагировать на условия, встречающиеся в реальных задачах анализа аффективных состояний. 2) Метод распознавания депрессии на основе трех типов признаков: акустических (DenseNet), визуальных (OpenFace) и текстовых (Word2Vec). Для классификации используются детерминированные методы классификации, такие как Catboost, а итоговое решение принимается посредством голосования. 3) Метод многозадачного распознавания эмоций и сентимента, основанный на стратегии тройного объединения, которая учитывает высокоуровневые признаки (wav2vec2, EmoAffectNet, RoBERTa) всех модальностей. Моделирование эмоций и сентимента происходит с помощью трансформер слоев. Разработанный метод позволил одновременно решать задачи распознавания эмоций и сентимента, оптимально используя вычислительные ресурсы и улучшая обобщающие способности модели. 4) Метод иерархического распознавания эмоций, сентимента и депрессии, в основе которого лежит двухуровневый подход, интегрирующий методы многомодального распознавания депрессии, эмоций и сентимента. На первом уровне происходит распознавание эмоций и сентимента, которые затем передаются в качестве признаков на второй уровень, где выполняется бинарное распознавание депрессии. В иерархическом методе эмоции и сентимент рассматриваются как факторы, влияющие на распознавание депрессии, поскольку наличие депрессии часто связано со стойкой негативной эмоциональностью и снижением позитивных реакций. Проведены экспериментальные исследования по классификации эмоций и сентимента (на корпусах RAMAS, MELD, CMU-MOSEI), агрессии (AVABOS) и депрессии (CMDC, MENHIR, DAIC): 1) Для распознавания агрессии исследование различных сочетаний модальностей показало важность выбора исходной модальности для конкретного вида агрессии (текст для вербальной, видео для физической). Введение дополнительной модальности позволило увеличить точность распознавания физической и вербальной агрессии при условии, что изначальная модальность для соответствующего вида агрессии показывает высокие результаты распознавания. 2) Для анализа депрессии основное внимание уделено поиску оптимальных параметров, размера временного окна и типов признаков, а также сравнению классификаторов. Эксперименты с видеоданными показали, что признаки OpenFace в сочетании с деревьями решений, являются наиболее эффективным представлением данных. В экспериментах с текстовыми данными метод Catboost с признаками Word2Vec оказался наилучшим, поскольку обеспечил сбалансированные результаты распознавания. Итоговый результат объединения модальностей подтверждает эффективность и сопоставимость с мировыми исследованиями, демонстрируя сбалансированные результаты классификации между классами. 3) Для многозадачной классификации эмоций и сентимента выполнено сравнение эффективности темпоральных моделей: трансформер моделей, Mamba и xLSTM. Выполнено сравнение четырех стратегий объединения многомодальных данных. Лучшую среднюю точность распознавания показала стратегия тройного объединения TFS, которая использует все три модальности в равной степени. 4) Для задачи иерархического распознавания эмоций, сентимента и депрессии проведены экспериментальные исследования. Из-за ограничений корпуса DAIC нами использованы только аудио и текстовые данные. При добавлении информации о сентименте удалось улучшить результаты распознавания депрессии с использованием аудио и текстовых данных относительно базового метода без учета эмоций и сентимента. Сравнение разработанных методов с известными в литературе показало высокую эффективность стратегий объединения многомодальных данных с использованием механизмов внимания. Предложенные методы продемонстрировали конкурентоспособную и/или превосходящую точность распознавания аффективных состояний. Эксперименты подтвердили, что совместный анализ акустических, визуальных и текстовых признаков позволяет более глубоко смоделировать природу аффективных состояний и повысить надежность распознавания. Разработанная интеллектуальная система зарегистрирована в Роспатенте в виде программы для ЭВМ «Интеллектуальная система многомодального анализа аффективных состояний человека». Она представляет собой многомодальную и многозадачную систему распознавания эмоций и сентимента, реализованную как веб-приложение. Система работает с мультимедийными файлами, которые можно загрузить с локального компьютера или записать с помощью веб-камеры и микрофона, и размещена на платформе Hugging Face: https://huggingface.co/spaces/DmitryRyumin/MASAI. Принято участие в соревнованиях по анализу аффективного поведения в натурных условиях ABAW при конференции CVPR 2024. Наша объединенная международная команда приняла участие в двух конкурсах по оцениванию валентности/активации эмоций, и распознаванию составных эмоций. В первом конкурсе нами предложен аудиовизуальный метод на основе акустической PDEM модели и визуальной модели EfficientNet для анализа лица человека, а также нескольких стратегий объединения акустических и визуальных признаков. Во втором конкурсе предложенный нами метод AVCER решал задачу распознавания составных эмоций. Метод комбинирует акустическую модель (wav2vec2) и две визуальных модели (статическая ResNet-50 и LSTM) для распознавания базовых эмоций. Решение о распознавании составных эмоций принимается на основе попарной суммы взвешенных распределений вероятностей базовых эмоций. Опубликован цикл из 6 научных работ в изданиях и журналах, индексируемых в международных системах Scopus, Web of Science и RSCI, в том числе, в российских журналах “Информатика и автоматизация”, “Научно-технический вестник информационных технологий, механики и оптики” и “Информационно-управляющие системы”, а также в трудах конференций CVPR Workshops 2024 и SPECOM 2024. Все выполненные работы и полученные научные результаты полностью соответствуют цели и задачам проекта. Для освещения основных результатов проекта поддерживается веб-страница https://hci.nw.ru/ru/projects/24.

Публикации

1. Двойникова А.А., Кагиров И.А., Карпов А.А. Метод распознавания сентимента и эмоций в транскрипциях русскоязычной речи с использованием машинного перевода Информатика и автоматизация, № 4, Т. 23, С. 1173-1198. (год публикации - 2024)
10.15622/ia.23.4.9

2. Уздяев М.Ю., Карпов А.А. Создание и анализ многомодального корпуса данных для автоматического распознавания агрессивного поведения людей Научно-технический вестник информационных технологий, механики и оптики, № 5, Т. 24, С. 834–842. (год публикации - 2024)
10.17586/2226-1494-2024-24-5-834-842

3. Рюмина Е.В., Маркитантов М.В., Рюмин Д.А., Кайа Х., Карпов А.А. Zero-Shot Audio-Visual Compound Expression Recognition Method based on Emotion Probability Fusion IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops, CVPRW 2024, pp. 4752-4760. (год публикации - 2024)
10.1109/CVPRW63382.2024.00478

4. Дресвянский Д.В., Маркитантов М.В., Юу Ю., Кайа Х., Карпов А.А. Multi-modal Arousal and Valence Estimation under Noisy Conditions IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops, CVPRW, 2024, pp. 4773-4783. (год публикации - 2024)
10.1109/CVPRW63382.2024.00480

5. Мамонтов Д.Ю., Цепф С., Карпов А.А., Минкер В. Cross-Cultural Automatic Depression Detection Based on Audio Signals Lecture Notes in Computer Science, LNCS, vol. 15299, pp. 309-323. (год публикации - 2024)
10.1007/978-3-031-77961-9_23

6. Величко А.Н., Карпов А.А. Подход к распознаванию депрессии по речи человека с использованием полуавтоматической разметки данных Информационно-управляющие системы, № 4(131), С. 2-11. (год публикации - 2024)
10.31799/1684-8853-2024-4-2-11

Возможность практического использования результатов
Разработанные в рамках проекта методы многомодального распознавания аффективных состояний обладают значительным потенциалом для применения в экономике и социальной сфере. Их интеграция в интеллектуальные системы взаимодействия с клиентами и пользователями способна повысить эффективность и качество предоставляемых услуг, а также улучшить пользовательский опыт. В экономике данные методы могут применяться в автоматизированных контакт-центрах, электронных торговых площадках и сервисах дистанционного обслуживания клиентов. Анализ аффективных состояний собеседника (покупателя, клиента, пользователя) позволит лучше понять его эмоциональный фон и намерения, своевременно выявлять недовольство или агрессию, снижать риск конфликтных ситуаций и повышать качество клиентского сервиса. Это, в свою очередь, приведет к укреплению лояльности клиентов, росту продаж и увеличению конкурентоспособности компаний. В социальной сфере такие технологии могут использоваться в образовательных и медицинских учреждениях, а также в службах психологической поддержки и социальных сервисах. Например, оценка эмоционального состояния учащегося поможет учителю или интеллектуальной обучающей системе адаптировать процесс обучения под текущие потребности, снижать стресс и повышать мотивацию к обучению. В медицинских и психологических консультациях анализ аффективных состояний пациентов или людей в ситуациях риска (например, при повышенной тревожности, депрессии) поможет специалистам эффективнее формировать рекомендации, а при автоматизированной предварительной диагностике – своевременно выявлять необходимость более углубленного вмешательства. Применение данных разработок также способствует развитию отечественной научно-технологической базы. Использование передовых нейросетевых и многомодальных технологий создаёт заделы для последующего появления новых программных продуктов, алгоритмов и сервисов, ориентированных на российские условия и русскоязычный контент. Это усиливает национальную конкурентоспособность в области искусственного интеллекта и интеллектуальных систем, повышает качество и доступность соответствующих технологий для бизнеса, образования, здравоохранения и социальной сферы. Полученные результаты проекта демонстрируют значительные достижения в области аффективных вычислений и открывают широкие перспективы для дальнейших исследований и использования результатов. Во-первых, возможно увеличение числа модальностей, включаемых в анализ. Физиологические данные, жесты и поза также способны обогатить понимание невербальных проявлений аффективных состояний. Другим направлением является расширение набора распознаваемых аффективных состояний, например, распознавание состояния стресса, тревожности, усталости или эмоционального выгорания. Интеграция этих состояний может позволить более полно и точно оценивать психоэмоциональное состояние человека, что особенно важно в современных условиях повышенного стресса и социальной напряженности. Дальнейшие исследования также могут быть направлены на улучшение адаптивности и персонализации системы. Разработка моделей, учитывающих индивидуальные особенности эмоциональных реакций, позволит повысить точность распознавания. Оценка перспектив в рамках данного проекта показывает высокий потенциал развития тематики исследования. Это может способствовать развитию научного потенциала и инноваций в сфере эмоционального искусственного интеллекта.