Разработка вычислительно эффективной технологии конфиденциальной обработки и анализа разнородных неидентично распределенных данных

КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

ОБЩИЕ СВЕДЕНИЯ

Номер проекта 25-11-20020

НазваниеРазработка вычислительно эффективной технологии конфиденциальной обработки и анализа разнородных неидентично распределенных данных

Руководитель Холод Иван Иванович, Доктор технических наук

Организация финансирования, регион Федеральное государственное автономное образовательное учреждение высшего образования "Санкт-Петербургский государственный электротехнический университет "ЛЭТИ" им. В.И. Ульянова (Ленина)" , г Санкт-Петербург

Конкурс №101 - Конкурс 2025 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами» (региональный конкурс)

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах; 01-512 - Информационные технологии интеллектуальной поддержки принятия решений

Ключевые слова конфиденциальный анализ данных, федеративное глубокое обучение, неоднородные данные, неидентично распределенные данные, глубокие стохастические самоконфигурируемые нейронные сети, ограниченные вычислительные ресурсы

Код ГРНТИ20.53.19

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ

Ожидаемые результаты
Результатом выполнения исследовательского проекта будет создание новой вычислительно эффективной технологии конфиденциальной распределенной обработки и анализа данных, основанной на применении федеративного обучения, и устойчивой к неоднородной вычислительной среде, включая неидентично распределенные данные, а также учитывающей ограниченные вычислительные ресурсы и ресурсы по хранению данных. В результате выполнения проекта будут получены следующие результаты: 1. общий подход к построению распределенной коллаборативной системы конфиденциальной обработки и анализа данных в неоднородной вычислительной среде, требования к структурным компонентам системы, построенной на основе данного подхода, и архитектура распределенной системы конфиденциальной обработки и анализа данных на основе федеративного обучения (ФО), устойчивой к не идентично распределенным данным; 2. методология оценки разнородности данных в ФО, включающая (1) систему метрик для оценки разнородности данных и алгоритмы их расчета; (2) и алгоритмы диагностики разнородности данных в федеративном обучении и (3) их программные прототипы; 3. методы и алгоритмы предварительной обработки данных в условиях горизонтального, вертикального и гибридного распределения данных для федеративного обучения аналитической модели; 4. модели и алгоритмы генерации наборов данных, моделирующих неидентично распределенные данные в случае их горизонтального распределения между клиентами, и их программные прототипы; 5. модели, методы и алгоритмы динамического формирования обучающих наборов данных для (пере)обучения в федеративном режиме с учетом требований к объему локального хранения данных и их программные прототипы; 6. методы и алгоритмы федеративной кластеризации объектов, принадлежащих разным клиентам в условиях неидентично распределенных данных; 7. методы и алгоритмы обучения моделей анализа неидентично распределенных данных на основе глубоких стохастических самоконфигурируемых нейронных сетей, адаптированных под ограниченные вычислительные ресурсы, за счет случайного назначения параметров в рамках регулируемых с помощью управляющего механизма («учителя») областей; 8. оценка устойчивости разработанной модели анализа неидентично распределенных данных на основе глубоких стохастических самоконфигурируемых нейронных сетей к атакам отравления данных; 9. сценарии применения разработанного подхода к построению построению распределенной коллаборативной системы конфиденциальной обработки и анализа данных на примере построения распределенной коллаборативной системы обнаружения вторжений и систему управления документооборотом в образовательной деятельности; 10. экспериментальная оценка комплекса разработанных методов и алгоритмов. Отмеченные результаты будут оригинальными; они будут основываться на разработках исполнителей проекта, выполненных ранее и выполняемых в настоящее время, а также базироваться на современных достижениях в области средств и методов искусственного интеллекта, анализа распределенных данных и технологий открытого и федеративного обучения. Новизна планируемых результатов связана с тем, что научная задача по разработке модельно-методического аппарата для построения конфиденциальной технологии обработки и анализа разнородных данных, устойчивой к неоднородной вычислительной среде, учитывающей ограниченные вычислительные ресурсы и ресурсы по хранению данных, в указанной в проекте постановке в России не ставилась, а за рубежом необходимость создания такого рода систем защиты вынесена на обсуждение сравнительно недавно, хотя в целом данная область развивается быстрыми темпами. Основные результаты работы носят фундаментальный и исследовательский характер. Они заложат основу для развития систем управления нового поколения, основанных на ячеистой архитектуре (data mesh architecture), в которой данные сгруппированы по предметным областям и, соответственно, разным узлам, и будут имеют высокое практическое значение в силу возможности своего применения в распределенных информационных системах, в которых выполняется анализ данных с ограниченным доступом. В случае достижения поставленной цели и успешного решения задачи конфиденциальной обработки и анализа данных в разнородной вычислительной среде, разработанные методы ФО могут быть применены к широкому спектру практических аналитических задач, таких как постановка диагнозов в здравоохранении, принятие решений по кредитным портфелям и инвестициям в финансовой сфере и т.д. Основные результаты проекта планируется опубликовать не менее чем в 18 статьях, из них 10 – в изданиях, индексируемых в базах данных Web-of-Science или Scopus, в том числе в IEEE Transactions on Dependable and Secure Computing (Q1), Sensors (Q1), SN Computer Science (Q2), Information (Q2), Информатика и Автоматизация (Q3), Информационно-управляющие системы (Q3) и других, а также в русскоязычных изданиях, индексируемых в базе РИНЦ и входящих в RSCI, в том числе в «Информатика и автоматизация», «Информационно-управляющие системы», «Автоматика, связь, информатика», «Известия высших учебных заведений. Приборостроение» и др. Кроме того, планируется публикация в трудах ведущих международных конференций.

ОТЧЁТНЫЕ МАТЕРИАЛЫ

Аннотация результатов, полученных в 2025 году
За отчетный период выполнения проекта были достигнуты следующие результаты: 1. Разработан общий подход к построению распределённой коллаборативной системы конфиденциальной обработки и анализа данных в неоднородной вычислительной среде. Определены функциональные требования платформы: загрузка и анализ набора данных; просмотр доступных наборов данных для обучения в федеративном режиме; выбор модели, алгоритма и стратегии агрегирования; оценка неоднородности данных; настройка параметров федеративного обучения; анализ качества модели и публикация результатов. Архитектура включает три компонента: модуль управления данными FLClient, реестр моделей и наборов данных FLRegistry и компонент управления обучением FLAnalyst. Для обмена описаниями наборов данных разработан формат DDF (Data Description File). Программная реализация основана на Spring Boot, фреймворке FL4J, протоколе gRPC и СУБД PostgreSQL. 2. Разработана методология оценки неоднородности данных в ФО, включающая систему метрик и алгоритмы диагностики неоднородности данных. В её основе лежит математическая модель неоднородно распределённых данных. Оценка неоднородности выполняется в два этапа: расчёт метрик распределения между клиентами и сопоставление их с показателями эффективности модели в ходе контролируемого эксперимента. Предлагается интегральная оценка, состоящая из трёх показателей: дисбаланса меток (Label_Skew), неоднородности признаков (Feature_Skew) и дисбаланса корреляций признаков и меток (CorrelationSkew), что позволяет наиболее полно описать неоднородность в данных разных клиентов федеративного обучения. Предусмотрено два режима расчета этих показателей в зависимости от требований обеспечения конфиденциальности статистических параметров обучающих выборок, принадлежащих клиентам. Метрики вычисляются либо на основе энтропии и взаимной информации, либо через расстояние Вассерштейна и норму Фробениуса (при допустимом обмене статистиками обучающих выборок). Эмпирическое исследование проводится с использованием наборов LEAF, FEMNIST, FedArtML для исследования данных в хадачах компьютерного рения и анализа текстов. Для генерации неоднородных табличных данных разработаны специальные алгоритмы, моделирующие заданные типы неоднородно распределенных данных с использованием одного набора данных, что позволяет оценивать эффективность разработанных стратегий федеративного обучения в условиях недостатка множества реалистичных наборов данных. 3. Разработаны методы предварительной обработки данных при горизонтальном распределении. Процедура включает анализ распределений без обмена статистическими характеристиками обучающих наборов данных и синхронизацию временных меток. Для оценки неоднородности используется предложенный кортеж метрик <Label_Skew, Feature_Skew, CorrelationSkew>, основанный на энтропийных и информационно-теоретических характеристиках. Для временной синхронизации предложены два алгоритма: с использованием параметра максимальной задержки T_max_delay и методом обработки множества значений с построением локального кэша QsC значений. Использование локального хеша позволяет вычислять значение признака, независимо от интервала обновления его значений. 4. Разработаны модели и алгоритмы генерации наборов, моделирующих неидентично распределённые данные при горизонтальном распределении между клиентами. Для создания данных с неоднородными признаками применяются: (1) метод на основе оценки дисперсии признаков, выделяющий подмножества по максимальной вариативности, и (2) алгоритм на основе иерархической кластеризации с использованием расстояния Вассерштейна. Генерация наборов со сдвигом меток осуществляется с помощью кластеризации и определения количества кластеров по метрикам Дэвиса–Боулдина и Калински–Харабаша. Результирующие подмножества имеют одинаковое распределение признаков, но различное распределение меток. Для сценариев с одинаковыми метками и различающимися признаками выполняется разбиение по меткам, выбор признака с наибольшей дисперсией, сортировка и деление подмножеств на равные части. Эксперименты показали, что полностью непересекающиеся сценарии неоднородности недостижимы на реальных данных, однако результаты позволили предложить модифицированную стратегию ModFedBN с адаптивным агрегированием, учитывающим уровень неоднородности клиентов. 5. Разработан программный компонент оценки неоднородности данных, реализующий количественную оценку статистической неоднородности и визуализацию распределений признаков и меток в распределённых системах. Интерфейс позволяет строить гистограммы, диаграммы и сводные таблицы. 6. Разработан компонент для генерации заданного числа поднаборов данных на основе одного исходного набора. Имеются механизмы визуализации статистических характеристик и расчёт показателей неоднородности между подмножествами для исследования полученных наборов данных. Программные компоненты выполнены на языке Python с использованием библиотек streamlit, pandas, numpy и scikit-learn.

Публикации

1. Бекенева Я. А., Новикова Е. С., Десницкий В. А. Analysis of Aggregation Algorithms in Federated Learning for Non-Identically Distributed Data IEEE (год публикации - 2025)

2. Мрейш К., Новикова Е.С., Чаплыгин М., Холод И.И., Альнажар Т. MFedBN: Tackling Data Heterogeneity with Gradient-Based Aggregation and Advanced Distribution Skew Modeling Sensors, 25, 7314 (год публикации - 2025)
10.3390/s25237314

3. Корытов П.В., Холод И.И. Извлечение ключевых слов из текстов в условиях отсутствия аннотированных данных с использованием обратной связи Известия СПбГЭТУ «ЛЭТИ», Т. 18, № 9. С. 68–78 (год публикации - 2025)
10.32603/2071-8985-2025-18-9-68-78

4. Колпащиков М. А., Холод И. И. Federated Learning Platform XXVIII International Conference on Soft Computing and Measurements (SCM), pp. 274-277 (год публикации - 2025)
10.1109/SCM66446.2025.11060092

5. Забалуев Д. А., Холод И. И. Preprocessing Android-Based Mobile Devices Sensors Data for Machine Learning XXVIII International Conference on Soft Computing and Measurements (SCM), pp. 311-314 (год публикации - 2025)
10.1109/SCM66446.2025.11060236

6. Корытов П. В., И. И. Холод Разработка метода объяснимого нестрогого сопоставления текстовых документов в условиях "холодного старта" с обратной связью Вестник Воронежского Государственного Университета. Системный анализ и информационные технологии, №4 (год публикации - 2025)

7. Кузнецова Е. О., Федорченко Е. В. Experimental Comparison of the Randomized and Fully Connected Neural Networks for Anomaly Detection in the Industrial Systems IEEE, pp. 45-48 (год публикации - 2025)
10.1109/NeuroNT66873.2025.11049960