Исследование и разработка системы для синтеза реалистичных движений губ цифровых аватаров в соответствии с произносимой речью

КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

ОБЩИЕ СВЕДЕНИЯ

Номер проекта 24-71-00112

НазваниеИсследование и разработка системы для синтеза реалистичных движений губ цифровых аватаров в соответствии с произносимой речью

Руководитель Аксёнов Александр, Кандидат технических наук

Организация финансирования, регион Федеральное государственное бюджетное учреждение науки "Санкт-Петербургский Федеральный исследовательский центр Российской академии наук" , г Санкт-Петербург

Конкурс №97 - Конкурс 2024 года «Проведение инициативных исследований молодыми учеными» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах; 01-202 - Интеллектуальный анализ данных и распознавание образов

Ключевые слова Синтез движений губ, анимация речи, цифровые аватары, аудиовизуальный синтез, генеративные модели, диффузионные модели, машинное обучение, трансформеры, ансамбли моделей, нейронные сети, оптимизация гиперпараметров, обработка аудиовизуальных данных

Код ГРНТИ20.19.29

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ

Аннотация
Данный научный проект направлен на разработку интеллектуальной системы для синтеза фотореалистичных движений губ цифровых аватаров, синхронизированных с входной речью, с использованием современных методов машинного обучения. Реалистичная визуализация артикуляции играет ключевую роль в создании выразительных анимированных персонажей для улучшения качества человеко-компьютерного взаимодействия во многих сферах, включая удаленные коммуникации, образование, развлечения и другие. Проект представляет собой интеграцию современных архитектур глубоких нейронных сетей, таких как диффузионные модели, трансформеры и сверточные сети, для построения высокоточной и адаптивной системы синтеза движений губ. Основными задачами является разработка математического, программного и информационного обеспечения, разделенная на два этапа: создание инновационных моделей и программных решений, а также проведение экспериментальных исследований и тщательной оптимизации. Успешная реализация проекта позволит получить конкретные результаты: проведение глубокого анализа больших объемов аудио-визуальных данных из высококачественных мультимодальных корпусов с целью выявления сложных закономерностей в движениях губ; применение современных методов предобработки и улучшения качества аудио и видео; создание новых математических моделей машинного обучения, способных эффективно обрабатывать и учитывать временные и пространственные зависимости в данных; всестороннее исследование методов автоматизированного машинного обучения для эффективного подбора гиперпараметров сложных нейросетевых моделей; изучение потенциала ансамблей специализированных нейросетей для повышения точности и стабильности синтеза движений губ; проведение серий экспериментов для оценки производительности разработанных моделей и методов на выборе высококачественных тестовых корпусов; анализ результатов с определением уровней точности распознавания и времени работы систем; итеративная оптимизация моделей и методов для достижения максимальной производительности; создание открытой программной библиотеки с инструментами для обучения, тестирования, анализа и визуализации результатов нейросетевых моделей синтеза артикуляционных движений. Эти результаты будут иметь значительный вклад в развитие технологий анимированных аватаров и позволят качественно улучшить процессы человеко-компьютерного взаимодействия в различных отраслях. Полученные фундаментальные знания и прикладные разработки будут востребованы для дальнейших исследований и внедрения инноваций в области речевых технологий, диалоговых систем, систем визуализации и искусственного интеллекта на передовом мировом научно-техническом уровне. Предлагаемые научные исследования акцентируют внимание на важности технологий искусственного интеллекта, включая компьютерное зрение, машинное обучение, а также интеллектуальную поддержку принятия решений и перспективные методы искусственного интеллекта в различных сферах человеческой деятельности, связанных с анализом аудио-визуальных данных и синтезом движений губ. Полученные результаты будут способствовать созданию интеллектуальных технологий, что укрепит современное развитие и устойчивое положение Российской Федерации на внутренних и внешних рынках. Они также поддержат переход к передовым цифровым и интеллектуальным производственным технологиям, а также созданию систем обработки больших объемов данных, машинного обучения и искусственного интеллекта. Это соответствует приоритетам и перспективам научно-технологического развития Российской Федерации на период до 2030 года, а также социально-экономическому развитию страны до 2035 года.

ОТЧЁТНЫЕ МАТЕРИАЛЫ

Аннотация результатов, полученных в 2025 году
На первом этапе реализации научного проекта выполнен комплекс прикладных и исследовательских работ, направленных на разработку интеллектуальной системы, способной синтезировать реалистичную артикуляцию речи и мимику лица цифрового аватара на основе звукового сигнала. Основное внимание уделено решению задачи автоматической генерации движений губ, согласованных с речью, с учетом пространственного положения головы, мимики и временного контекста, что открывает перспективы для использования таких моделей в виртуальных помощниках, цифровых людях и образовательных платформах. В рамках этапа проведен аналитический обзор современных методов аудиовизуального синтеза и генерации лицевой анимации. Были систематизированы крупномасштабные открытые корпуса (такие как VFHQ, HDTF, VoxCeleb2, LRW и др.), проанализированы методы визуального выравнивания лиц и автоматического извлечения ключевых точек, в том числе с использованием нейросетевых решений MediaPipe и Face Alignment Network. На основе анализа разработана система подготовки данных, обеспечивающая выравнивание лиц, нормализацию аудиосигналов, выделение области рта и синхронизацию видео и аудио. Также реализованы методы аугментации данных, позволяющие имитировать различные ракурсы, шумы и временные несоответствия, что повысило устойчивость модели к реальным условиям. Ключевым научным результатом стало создание оригинальной генеративной модели NeRF-LipSync, использующей диффузионный механизм пошагового восстановления изображения, а также элементы трехмерного представления головы для обеспечения согласованности движения лица в пространстве. В модели интегрированы методы межмодального внимания, которые позволяют соотносить особенности аудиосигнала и визуальные признаки лица, в том числе на различных временных интервалах. Использование 3D-координат, полученных из реконструкции или оптического потока, позволило повысить стабильность синтезируемого изображения при поворотах головы и устранить так называемые “плавающие” искажения между кадрами. Благодаря этому достигается высокая степень синхронности между речью и артикуляцией, а также визуальная реалистичность результата. Кроме того, был разработан метод BiMoDiCA - архитектура генеративной модели, объединяющая аудио, изображение лица и семантико-эмоциональные признаки текста в единую структуру. Данный метод позволяет формировать выразительную лицевую анимацию, учитывая не только содержание речи, но и ее интонационную и эмоциональную окраску. В перспективе это открывает путь к созданию эмоционально осмысленных цифровых аватаров. Проведены эксперименты по выбору гиперпараметров обучения модели, включая стратегии генерации, количество шагов восстановления, методы регуляризации и подбор оптимальных коэффициентов для потерь. Установлено, что сокращение числа итераций при сохранении качества генерации возможно при использовании специального детерминированного сэмплера, что позволяет значительно повысить скорость модели и адаптировать ее к практическим задачам. Рассматривались альтернативные архитектурные решения, включая использование ансамблей и каскадных схем. Однако результаты экспериментов показали, что такие подходы не обеспечивают существенного выигрыша в качестве и, напротив, могут приводить к нестабильности или увеличению вычислительных затрат. Поэтому предпочтение отдано единой модели с обучением по принципу сквозной оптимизации (End-to-End). Результаты выполненных исследований представлены в виде цикла научных публикаций. В частности, принята статья в журнал «Научно-технический вестник информационных технологий, механики и оптики», индексируемый базами данных Scopus, RSCI и РИНЦ и включённый в «Белый список» Минобрнауки РФ. Статья посвящена разработке метода BiMoDiCA - архитектуры генеративной модели, обеспечивающей синхронную генерацию артикуляции речи, мимики и невербальных выражений цифрового аватара на основе мультимодального входа. Представлены принципы интеграции визуальных, аудиофонетических и семантико-эмоциональных признаков, а также схемы адаптации модели к реальным условиям. Также принята к публикации статья в материалах международной конференции Photogrammetric Techniques for Environmental and Infrastructure Monitoring, Biometry and Biomedicine (PSBB), индексируемой базой данных Scopus. В работе представлена модель NeRF-LipSync, реализующая подход к синхронной генерации движений губ на основе аудиосигнала с учетом положения головы и ракурса. Метод основан на диффузионной генерации с использованием признаков трехмерной структуры сцены и межмодального внимания, что обеспечивает фотореализм и устойчивость синтезируемой анимации. Все выполненные работы и достигнутые научные результаты в полном объеме соответствуют заявленным целям и задачам проекта, определённым при поддержке Российского научного фонда.

Публикации

1. Аксёнов А.А., Рюмина Е.В., Рюмин Д.А. Метод генерации анимации цифрового аватара с речевой и невербальной синхронизацией на основе бимодальных данных Научно-технический вестник информационных технологий, механики и оптики (год публикации - 2025)

2. Аксёнов А., Долгушин М., Рюмин Д. NeRF-LipSync: A Diffusion Model for Speech-Driven and View-Consistent Lip Synchronization in Digital Avatars The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences (год публикации - 2025)