КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ
Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.
ОБЩИЕ СВЕДЕНИЯ
Номер проекта 25-11-00319
НазваниеИнтеллектуальная система многомодального распознавания когнитивных нарушений людей
Руководитель Карпов Алексей Анатольевич, Доктор технических наук
Организация финансирования, регион Федеральное государственное бюджетное учреждение науки "Санкт-Петербургский Федеральный исследовательский центр Российской академии наук" , г Санкт-Петербург
Конкурс №104 - Конкурс 2025 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами»
Область знания, основной код классификатора 01 - Математика, информатика и науки о системах; 01-726 - Системы и технологии интеллектуального анализа данных и распознавания образов
Ключевые слова речевые технологии, аудиовизуальные данные, многомодальный анализ, автоматическое распознавание речи, распознавание образов, цифровая обработка сигналов, обработка естественного языка, распознавание когнитивных нарушений, интеллектуальные технологии для здравоохранения и благополучия людей, искусственный интеллект
Код ГРНТИ28.23.29
ИНФОРМАЦИЯ ИЗ ЗАЯВКИ
Аннотация
Данный проект РНФ направлен на решение актуальной проблемы многомодального распознавания когнитивных нарушений людей по анализу их разговорной речи и визуального проявления мимики и поведения с использованием современных методов цифровой обработки сигналов и глубокого машинного обучения. Целью проекта является разработка и исследование интеллектуальной компьютерной системы для многомодального анализа поведения людей с целью распознавания когнитивных нарушений (при таких заболеваниях как болезни Альцгеймера и Паркинсона, деменция, депрессия и др.) на основе аудио, видео и текстовых данных для повышения эффективности и оперативности бесконтактного диагностирования заболевания. Исследования по автоматической диагностике речевых и многомодальных проявлений когнитивных нарушений являются крайне востребованной междисциплинарной областью применения новейших информационных технологий и искусственного интеллекта в обеспечении здравоохранения и благополучия (healthcare and wellbeing) людей. Это объясняется перспективностью использования методов искусственного интеллекта для оперативной, дистанционной и нетребовательной к оборудованию медицинской диагностики, особенно значимой для людей, которые могут быть ограничены в перемещении в силу особенностей возраста, состояния здоровья, либо по причине удаленного места проживания и невозможности очного приема у медицинского специалиста. Такие исследования обязаны соответствовать высоким требованиям к качеству распознавания нарушений со стороны пользователей и специалистов, а также этическим требованиям, поэтому особую актуальность и значимость имеет разработка новых эффективных, надежных и объяснимых методов искусственного интеллекта (explainable AI) для интерпретации принимаемых решений.
В ходе работы над проектом планируется разработать и исследовать новые и усовершенствовать известные модели, методы, алгоритмы и программные решения для комплексного многомодального распознавания когнитивных нарушений людей. В частности, планируется решить актуальные проблемы, связанные с аугментацией (augmentation) обучающих аудиовизуальных данных на различных языках и изучить возможности получения новых языконезависимых наборов признаков и их применения для русскоязычных данных с использованием экспертных, нейросетевых подходов и больших языковых моделей. Также планируется исследовать подходы для машинной классификации (наличия или отсутствия патологии) или регрессии (определения степени тяжести когнитивного заболевания) рассматриваемых когнитивных нарушений, подходы к обеспечению объяснимости экспертных и нейросетевых признаков, вероятностных моделей когнитивных нарушений. Основным результатом данного проекта должен стать прототип интеллектуальной экспертной системы для автоматического распознавания когнитивных нарушений людей на основе комплексного многомодального анализа акустических характеристик голоса, визуальных характеристик мимики, жестов и поведения человека, а также лингвистических составляющих его речевых высказываний. Ожидается, что полученные результаты будут отвечать современным требованиям и стандартам в данной области и находиться на передовом мировом уровне. Практическая и научно-техническая значимость поставленных в проекте задач подтверждается высоким спросом на разрабатываемые технологии на рынке речевых и многомодальных экспертных технологий для обеспечения здравоохранения и благополучия людей, а также большим количеством зарубежных научных публикаций, посвященных данной проблеме в ведущих научных журналах и трудах международных конференций. Разработанная интеллектуальная система будет уникальной в своем роде ввиду возможности комплексного многомодального определения рассматриваемых когнитивных нарушений в речи и многомодальной коммуникации, использования новых наборов анализируемых признаков, а также применения многоуровневых методов анализа с учетом взаимозависимостей между рассматриваемыми когнитивными нарушениями.
Ожидаемые результаты
Проект направлен на решение актуальных проблем и задач автоматического многомодального распознавания когнитивных нарушений людей с использованием современных методов цифровой обработки сигналов, глубокого обучения и распознавания образов. Ожидаемые результаты проекта включают в себя новое и усовершенствованное математическое обеспечение (модели, методы, алгоритмы) для эффективной предобработки многомодальных (аудио, видео и текстовых) данных, шумоподавления, аугментации обучающих данных, выбора информативных экспертных и нейросетевых признаков, многомодального моделирования и распознавания рассматриваемых когнитивных нарушений, а также программную реализацию предложенного математического обеспечения. Кроме того, в рамках проекта планируется исследовать различные известные и перспективные методы обеспечения объяснимости признакового описания и вероятностных моделей распознавания на основе методов локальной интерпретации, а также создать новые методы объединения объяснимых экспертных признаков и необъяснимых нейросетевых признаков для эффективного решения задачи классификации и/или регрессии когнитивных нарушений.
При этом целевая аудитория разрабатываемой интеллектуальной системы включает в себя пользователей и медицинских специалистов как в нашей стране (работающих с русскоязычными данными), так и за рубежом (работающих с речевыми данными на других языках). В рамках проекта предполагается создание средств для адаптации доступных зарубежных баз данных и аугментации обучающих данных по когнитивным нарушениям посредством генеративных нейронных сетей для проведения исследования на русском, а также на других языках мира. Таким образом, данное исследование является актуальным и масштабным, как в рамках российской, так и мировой науки и техники.
Результаты проекта направлены на фундаментальное развитие и прикладное использование методов и технологий искусственного интеллекта в обеспечении здравоохранения и благополучия граждан России, и имеют несомненно высокую научную и социальную значимость. В частности, в рамках проекта планируется практическое тестирование разработанных моделей для диагностики когнитивных нарушений на клинических данных на различных естественных языках и, при возможности, апробирование полученных в результате проекта методов и моделей на международных соревнованиях по автоматическому определению когнитивных нарушений. На сегодняшний день исследования в области интеллектуальных речевых и многомодальных технологий в обеспечении здравоохранения и благополучия людей, ориентированные на русскоязычные речевые данные, значительно отстают по количеству и качеству от исследований, ориентированных на другие мировые языки, особенно английский и немецкий. Поэтому, разрабатываемая интеллектуальная система позволит приблизить технологии для автоматического анализа когнитивных нарушений на русском языке к уровню современных зарубежных исследований и разработок.
В ходе выполнения проекта РНФ в 2025-2027 гг. ожидается получить следующие основные научно-технические результаты:
1) Расширенный аналитический обзор по тематике исследований, включая аннотированный отчет о патентных исследованиях (в 2025 г.).
2) Информационное обеспечение (речевые и аудиовизуальные базы данных) для многомодальных исследований когнитивных нарушений людей (в 2025 г.).
3) Новое и усовершенствованное математическое обеспечение (модели, методы, алгоритмы) для эффективного представления многомодальных данных, аугментации данных, выбора информативных признаков, многомодального моделирования и распознавания когнитивных нарушений, объяснения вывода распознавания когнитивного нарушения, а также программная реализация с использованием программных инструментариев и средств математического моделирования (например, OpenSMILE, OpenFace, OpenPose, OpenCV, TensorFlow, pyTorch, Keras, Praat, transformers и т.д.) (в 2025–2027 г.), в том числе для:
а) предобработки, извлечения нейросетевых и экспертных акустических, визуальных и текстовых признаков;
б) аугментации данных по отдельным модальностям (аудио, видео, текст)
в) классификации когнитивных нарушений по отдельным модальностям (аудио, видео, текст) на нескольких языках;
г) классификации когнитивных нарушений с использованием бимодального и многомодального подходов на нескольких языках;
д) объяснения и интерпретации результатов классификации когнитивных нарушений по отдельным модальностям (аудио, видео, текст);
е) объяснения и интерпретации результатов классификации когнитивных нарушений с использованием бимодального и многомодального подходов.
4) Новое и усовершенствованное программное обеспечение интеллектуальной системы комплексного многомодального анализа когнитивных нарушений, созданное на языках проектирования и программирования высокого уровня С/C++/Python для ОС семейства MS Windows/Linux (в 2026 и 2027 г.).
5) Результаты экспериментальных исследований интеллектуальной системы для комплексного многомодального анализа проявлений когнитивных нарушений с использованием имеющихся аудиовизуальных корпусов (в 2025–2027 гг.), включая:
а) результаты экспериментов по количественной оценке эффективности предложенного математического обеспечения в задаче одномодального распознавания когнитивных нарушений с использованием кросс-корпусных, кросс-лингвистических, многозадачных, иерархических и объяснимых подходов к моделированию и аугментации данных на нескольких языках;
б) результаты экспериментов по количественной оценке эффективности предложенного математического обеспечения в задаче многомодального распознавания когнитивных нарушений с использованием кросс-корпусных, кросс-лингвистических, многозадачных, иерархических и объяснимых подходов к моделированию на нескольких языках;
в) анализ и сравнение полученных результатов с современными мировым состоянием.
6) Цикл научных публикаций по результатам работ, включающий не менее 12 статей в российских и международных журналах и изданиях, индексируемых в базах данных Web of Science, Scopus и/или RSCI (в 2025–2027 гг.), свидетельства о государственной регистрации разработанного программного обеспечения (в 2027 г.), а также заявку на выдачу патента РФ на изобретение или полезную модель.
ОТЧЁТНЫЕ МАТЕРИАЛЫ
Аннотация результатов, полученных в 2025 году
В 2025 году выполнен 1-й этап проекта, связанный с исследованием математического и информационного обеспечения интеллектуальной системы многомодального распознавания когнитивных нарушений людей.
Выполнен аналитический обзор современной научно-технической литературы по теме речевых и многомодальных методов распознавания когнитивных нарушений людей. Из аналитического обзора можно сделать вывод, что несмотря на прогресс в области развития нейросетевых методов, ограниченные размеры имеющихся наборов данных и требования медицинской прозрачности и высокой точности методов вынуждают использовать линейные модели, либо развивать архитектуры, поддерживающие возможность объяснения полученных результатов (XAI). Проведен анализ существующего информационного обеспечения и получен доступ к нескольким открытым речевым и многомодальным корпусам, содержащим данные людей с когнитивными нарушениями (ADReSS, ADReSSo, Taukadial, GRAADRD), болезнью Паркинсона (WSM), депрессией (DAIC-WOZ, eDAIC-WOZ).
Проведен патентный поиск глубиной 2005-2025 гг. В результате исследования обнаружены 24 релевантных патента, из которых 9 – российских. В результате не было обнаружено работ, направленных на распознавание одновременно нескольких когнитивных нарушений. Также не было найдено патентных документов, предполагающих одновременный анализ всех модальностей (видео, аудио и текст), что определяет потенциал для наших исследований.
Разработано новое и усовершенствовано существующее математическое обеспечение (модели, методы и алгоритмы) для автоматического моделирования различных когнитивных нарушений:
а) Предложены и реализованы методы предобработки, нормализации и шумоочистки с использованием классических и нейросетевых технологий. Для видеоданных (влоги WSM) создан единый процесс обработки, включающий методы и модули Silero VAD для определения голосовой активности, whisper-timestamped (Whisper-large-v3-turbo) для распознавания речи с выравниванием и OCEAN-AI для детекции лица. Длинные видеозаписи сегментируются, после чего сохраняются только фрагменты, содержащие речь и лицо информанта, что обеспечивает высокое качество данных. Для клинических аудиоданных используется метод speaker-diarization-3.1 для выделения дикторов, шумоподавление noisereduce и нормализация по громкости. Для извлечения транскрипций применяется связка Silero VAD, whisper-timestamped и моделей Whisper-large-v3-turbo / Whisper-large-v3 с языкоспецифичными промптами, позволяющими минимизировать ошибки распознавания речи и сохранять речевые сбои как потенциальные маркеры нарушений.
б) Предложены и реализованы методы извлечения экспертных и нейросетевых признаков из аудиоданных и текста с учетом особенностей естественных языков. Используются акустические и просодические аудиопризнаки eGeMAPs (OpenSMILE) и DigiPsych Prosody (WebRTC VAD), а также текстовые представления, формируемые на основе транскрипций Whisper. Применяются экспертные аудиопризнаки OpenSMILE и текстовые признаки BlaBla, а также параметры, полученные из систем распознавания речи при когнитивных нарушениях. В результате предложен новый кросс-языковой набор признаков, пригодный для моделирования когнитивных нарушений в многомодальной среде.
в) Предложены и реализованы методы аугментации текстовых данных с применением LLM и обратного машинного перевода. Показано, что различные когнитивные нарушения характеризуются специфическими лингвистическими паттернами (повторы, упрощение синтаксиса и др.), что требует различных стратегий аугментации текстовых данных: для деменции, умеренных когнитивных нарушений, биполярных расстройств, болезней Паркинсона и Альцгеймера используется LLM-перефразирование; для депрессии и контрольной группы – обратный машинный перевод Качество аугментации текстовых данных контролируется с использованием количественных показателей BLEU и BERT-score.
г) Реализованы и исследованы методы объединения экспертных и нейросетевых признаков различных модальностей на корпусах eDAIC-WOZ и WSM. В рамках экспериментальный исследований производилось позднее объединение на уровне предсказаний (аудио, видео и текст), при котором каждая модальность обрабатывается отдельной моделью, а результаты объединяются методом ансамбля классификаторов с голосования большинством. Эксперименты с ранним объединением на уровне признаков показали более низкую точность распознавания. В дальнейшем предполагается использовать архитектуры на основе графов и кросс-модального внимания, которые ранее не применялись в данной области и представляют перспективный подход к повышению качества многомодального анализа когнитивных нарушений.
В процессе исследования было выявлено, что лингвистическая информация наиболее значима при определении когнитивных отклонений, поскольку они оказывают значительное влияние на словарный запас, однако лингвистические текстовые признаки языкозависимы, что ограничивает применимость подобных методов для кросс-языкового анализа. Аудио и видеопризнаки могут передавать важную дополнительную информацию, что позволяет повысить достоверность и снизить влияние языковых особенностей на гипотезы предсказания нарушений.
По результатам проведенных в 2025 году аналитических, теоретических и экспериментальных исследований подготовлен и опубликован цикл из 3-х научных статей в журналах и изданиях, индексируемых в международных системах цитирования Scopus и RSCI, в том числе в российских научных журналах “Информатика и автоматизация” (Scopus и RSCI, УБС 2), “Научно-технический вестник информационных технологий, механики и оптики” (Scopus и RSCI, УБС 2) а также в трудах 27-й международной конференции “Speech and Computer” SPECOM-2025 (г. Сегед, Венгрия) в периодическом научном издании “Lecture Notes in Computer Science” издательства Springer Nature (индексируется в Scopus, уровень Q2).
Все выполненные работы и полученные результаты полностью соответствуют цели и задачам проекта. Для освещения основных результатов проекта создана веб-страница https://hci.nw.ru/ru/projects/27.
Публикации
1.
Долгушин М.Д., Гусева Д.А., Карпов А.А.
Investigation of Explainable Multimodal Methods for Detecting Mental Disorders
Lecture Notes in Computer Science (subseries Lecture Notes in Artificial Intelligence), SPECOM 2025, LNAI, vol. 16187, pp. 173-187. (год публикации - 2025)
10.1007/978-3-032-07956-5_12
2.
Долгушин М.Д., Карпов А.А.
Аналитический обзор речевых и многомодальных методов распознавания когнитивных нарушений людей
Информатика и автоматизация, Т. 24, № 6, С. 1683-1720. (год публикации - 2025)
10.15622/ia.24.6.6
3.
Величко А.Н., Карпов А.А.
Многомодальный подход к определению депрессии с использованием полуавтоматической разметки данных и детерминированных методов машинного обучения
Научно-технический вестник информационных технологий, механики и оптики, Т. 25, № 6, С. 1030-1039. (год публикации - 2025)
10.17586/2226-1494-2025-25-6-1030-1039