КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 23-71-01084

НазваниеПерспективные методы и средства генерации синтетических и суррогатных данных

РуководительКопец Екатерина Евгеньевна, Кандидат технических наук

Организация финансирования, регион Федеральное государственное автономное образовательное учреждение высшего образования "Санкт-Петербургский государственный электротехнический университет "ЛЭТИ" им. В.И. Ульянова (Ленина)", г Санкт-Петербург

Период выполнения при поддержке РНФ 07.2023 - 06.2025 

Конкурс№84 - Конкурс 2023 года «Проведение инициативных исследований молодыми учеными» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными.

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-112 - Обыкновенные дифференциальные уравнения и теория динамических систем

Ключевые словахаос, нелинейная динамика, суррогатные данные, синтетические данные, энтропия, генератор сигналов, управление хаосом, динамические системы, дискретные отображения, идентификация

Код ГРНТИ27.35.00


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Во многих областях науки и техники при обработке результатов измерений используется подход, известный как суррогатный анализ. Тестирование реальных выборок с помощью суррогатных данных позволяет определить наличие и тип нелинейности в исследуемых последовательностях. Актуальны также задачи генерации биологически инспирированных сигналов - синтетических кардио- и энцефалограмм, используемых при создании и настройке медицинских приборов, а также вокализации морских млекопитающих, применяемых при проектировании перспективных гидроакустических систем локации и связи. Наблюдаемый переход от линейных моделей объектов исследования к нелинейным и сопутствующее усложнение объектов проектирования, связанное с широким использованием нелинейных эффектов в технике, порождают потребность в новых методах синтеза суррогатных и синтетических данных с использованием нелинейных генераторов временных рядов. В настоящее время при суррогатном анализе в основном используются линейные суррогатные данные, позволяющие статистически достоверно ответить на вопрос является ли процесс, порождающий исследуемую выборку, нелинейным и обладающие рядом недостатков: высокой вероятностью ошибочного отклонения гипотезы при идентификации систем по зашумленным сигналам, высоким процентом ошибок при проверке факта синхронизации хаотических систем, сложностями при разделении смешанных сигналов, образованных несколькими нелинейными системами. Ввиду того, что подавляющее большинство реальных систем являются нелинейными, представляется перспективным использование подхода на основе суррогатных данных нелинейного типа для одновременного уточнения типа нелинейности и оценки фрактальной размерности аттрактора. Настоящий проект предлагает новые методы и средства генерации суррогатных и синтетических данных, основанные на авторском подходе к управлению хаотическим поведением нелинейных динамических систем и генеративных нейронных сетях. Предлагаемые алгоритмы позволят эффективнее решать значительное число теоретических и прикладных задач исследования в естественных, технических и социальных науках. В настоящем проекте предлагается расширить класс нулевых гипотез при использовании суррогатных данных до гипотез о различных хаотических свойствах процесса, включая фрактальную размерность, гиперхаотичность и ляпуновский спектр. Для этого предлагается новая архитектура генераторов суррогатных и синтетических данных на основе управляемых нелинейных отображений. Данный тип отображений позволяет гибко управлять их свойствами: энтропией, фазовым объемом, спектральными характеристиками и др., без разрушения хаотического режима колебаний. Отдельный интерес представляет подлежащая разработке процедура тонкой настройки генераторов суррогатных данных за счет применения синхронизации порождающей модели с реальными исследуемыми данными, а также сигнала, генерируемого нейронной сетью, с сигналом, генерируемым детерминированной моделью. Перспективным подходом является недавно предложенный прием адаптивной симметрии, успешно используемый при генерации псевдослучайных данных в криптографических приложениях и при синтезе новых метрик оценки хаоса в динамических системах. Научная новизна проекта заключается в предлагаемом новом математическом обеспечении нелинейных генераторов суррогатных данных с заданными свойствами, а также использовании для решения задач генерации суррогатов инструментария современной нелинейной динамики и вычислительной математики: адаптивных дискретных отображений с управляемым хаосом, синхронизации с реальными данными для уточнения характеристик синтетических данных по реальным образцам и элементов искусственного интеллекта в форме генеративных нейронных сетей.

Ожидаемые результаты
1. Набор математических моделей генераторов синтетических и суррогатных данных, представленных в форме дискретных динамических систем с контролируемым хаосом и позволяющих управлять нелинейными характеристиками порождаемых ими временных рядов за счет изменения геометрических свойств. 2. Алгоритмы программных генераторов суррогатных и синтетических данных с различной архитектурой, управляемыми свойствами и статистическими характеристиками. 3. Алгоритмы генерации синтетических биоподобных данных на основе подходов машинного обучения, восстановления фазового пространства, генеративных нейронных сетей и комплексирования перечисленных способов в рамках конвергентного подхода. 4. Методика построения наборов синтетических данных с использованием генераторов хаоса с управляемой геометрией, предусматривающая имитацию нелинейных свойств, отсутствующих в исходных измеренных последовательностях. 5. Методика комплексирования различных типов генераторов суррогатных и синтетических данных с целью получения последовательностей со смешанными свойствами, напр., объединяющих детерминированную динамику генераторов на основе реконструкции фазового пространства со свойствами последовательностей, порождаемых генеративными нейронными сетями. 6. Результаты экспериментального сравнения предлагаемых подходов и алгоритмов с известными способами генерации суррогатных данных. Сравнительная оценка вычислительной эффективности разработанных и существующих алгоритмов. Предполагаемые результаты проекта соответствуют мировому уровню исследований в области анализа и синтеза динамических систем, нелинейной динамики, а также способов генерации синтетических данных.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2023 году
В первый год выполнения проекта решались задачи создания библиотеки тестовых сигналов, генераторов синтетических сигналов и генераторов суррогатных данных. Одним из основных направлений исследований была выбрана генерация синтетических биоподобных сигналов. В качестве таких сигналов были выбраны звуки вокализации кашалотов. Подобные акустические сигналы обладают многоимпульсной структурой, содержат большой диапазон частот и представляют интерес с точки зрения технических приложений, таких, как звукоподводная связь и гидролокация. Была сформирована библиотека тестовых данных, состоящая из набора вокализаций кашалотов. Данная библиотека данных была расширена и дополнена с помощью нескольких методов аугментации данных. Были использованы как классические подходы к расширению данных (изменение громкости, тона и темпа исходного сигнала, добавление шума) так и более нестандартные подходы, такие как микширование по оси времени и микширование по оси частот. Методы аугментации применялись не напрямую к сигналу, а через его спектрограмму. Сравнительный анализ показал, что использование такого подхода к аугментации как микширование по оси времени дает возможность создания выборки со статистическими и спектральными характеристиками, наиболее сходными с таковыми для оригинального сигнала. Была разработана методика генерации синтетических биоподобных данных на примере щелчков кашалота с использованием нейросети SyleGAN2-ADA. Для обучения нейросети использовалась расширенная библиотека тестовых сигналов, полученная с помощью ранее исследованных методов аугментирования. Для сравнения использовалась нейросеть для генерации аудио файлов WaveGAN, которая обучалась на тех же тестовых сигналах. Наилучшие результаты генерации синтетических сигналов были получены при использовании тестовой выборки на основе метода аугментирования микширование по оси времени. Отклонение значений исследуемых метрик сгенерированных синтетических сигналов от исходного сигнала составило от 2 до 8%. Для оценки нелинейности исследуемых сигналов был разработан алгоритм суррогатного анализа, включающий генератор суррогатных данных. Суррогатные данные генерировались с помощью метода авторегрессии, однако в качестве генератора случайных чисел использовался ГПСЧ на основе нового дискретного отображения предложенного в ходе выполнения проекта, представляющего собой фрактальную модификацию отображения Tent Map. Полученный ГПСЧ прошел все тесты NIST, показывающие, что данный генератор создает псевдослучайные последовательности. Суррогатное тестирование на нелинейность проводилось на трех типах данных: линейный сигнал сгенерированный моделью авторегрессии; нелинейный сигнал дискретного отображения Эно и линейный биологический сигнал щелчка кашалота. Суррогатные данные создавались с помощью стандартной функции randn() и с помощью трех псевдослучайных генераторов на основе дискретных отображений, включая и предложенное фрактальное отображение Fractal Tent Map. Генераторы на основе дискретного отображения Tent Map и предложенного фрактального отображения Fractal Tent Map точно определяли линейность или нелинейность сигналов, а ГПСЧ на основе дискретного отображения логистической карты и стандартной функции randn() показывали ошибки в определении линейности биологического и линейного сигналов. В ходе выполнения проекта также были созданы инструменты анализа для оценки фрактальной размерности и показателей Ляпунова, предназначенные для исследования свойств как естественных, так и синтетических последовательностей. В ходе выполнения проекта предложен новый инструмент анализа нелинейной динамики и определения меры подобия моделей нелинейных динамических систем - синхрограммы. Синхрограммой называется график, отражающий зависимость погрешности обобщенной синхронизации двух различных динамических систем (или различных моделей одной системы) от изменения заданного набора параметров. Синхронизация для построения синхрограмм может проводиться как по одной переменной, так и по нескольким. Предложена классификация синхрограмм на идентификационную синхрограмму, при которой ведется перебор параметров только одной системы и определяется, в каком диапазоне параметров две исследуемые модели наиболее адекватны друг другу, и абсолютную синхрограмму, оценивающую меру подобия двух динамических систем через ошибку их синхронизации на выбранном пространстве параметров. Показана схожесть полученной синхрограмм с параметрическими диаграммами наибольшего показателя Ляпунова, построенных при тех же параметрах. Синхрограммы могут использоваться как при нахождении наилучшего соответствия параметров идентифицируемой модели исходным данным, так и для количественной оценки меры подобия двух систем или процессов. С учетом полученных результатов, уточнены задачи на второй год выполнения проекта.

 

Публикации

1. Копец Е.Е., Шпилевая Т.А., Васильченко О.В., Каримов А.И., Бутусов Д.Н. Generating synthetic sperm whale voice data using StyleGAN2-ADA Big Data and Cognitive Computing, 8(4), 40 (год публикации - 2024) https://doi.org/10.3390/bdcc8040040