КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер проекта 22-21-00692

НазваниеРазработка и реализация расширяемого подхода к интеграции больших данных в распределенной вычислительной среде

Руководитель Захаров Виктор Николаевич, Доктор технических наук

Организация финансирования, регион федеральное государственное учреждение "Федеральный исследовательский центр "Информатика и управление" Российской академии наук" , г Москва

Конкурс №64 - Конкурс 2021 года «Проведение фундаментальных научных исследований и поисковых научных исследований малыми отдельными научными группами»

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах; 01-514 - Технологии приобретения, представления, обработки и интеграции знаний

Ключевые слова большие данные, интеграция данных, распределенная вычислительная среда

Код ГРНТИ20.23.17


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
В современном мире возрастают объемы данных, количество источников данных, скорость изменения данных и источников данных, разнообразие данных. Например, сеть Интернет содержит массу разнородных источников данных возрастающих объемов. К ним относятся базы данных, файлы, веб-сервисы (как интерфейсы доступа к информации), социальные сети. Все более актуальной становится задача интеграции данных в различных предметных областях – от научных до коммерческих и государственных. Целью интеграции данных является представление в унифицированном виде данных, находящихся во множестве автономных источников данных. Над интегрированными данными могут в дальнейшем решаться различные задачи анализа данных, построение отчетов, визуализация. Интеграция данных – это сложная и комплексная задача, включающая разрешение семантических и структурных конфликтов, преодоление различий в форматах данных, выявление недостоверности данных, преодоление высокой разнородности источников данных. Ввиду все возрастающих объемов данных необходимы методы и средства автоматизации процессов интеграции данных. Важный аспект современных систем интеграции больших данных — это реализация в распределенной вычислительной среде (например, Hadoop), развертываемой на вычислительных кластерах, и, тем самым, обеспечивающей масштабирование по объему и скорости обработки данных, количеству источников данных. Проект направлен на решение научной проблемы разработки методов и средств интеграции больших данных в распределенных вычислительных средах. Конкретной задачей является разработка и программная реализация расширяемого подхода к интеграции больших данных в распределенной вычислительной среде. Расширяемость понимается как возможность поддержки широкого набора методов для различных этапов полного цикла интеграции данных, включающего извлечение данных из источников, сопоставление схем источников данных, разрешение сущностей (выявление в разных источниках данных записей, относящихся к одной и той же сущности реального мира), слияние данных (объединение данных об одной и той же сущности из разных источников в единое представление с разрешением противоречий в данных). Каждый из этапов может быть реализован с использованием различных методов. Модули, реализующие различные методы для одного этапа, должны быть взаимозаменяемы в программной архитектуре подхода. Система интеграции должна быть предназначена для развертывания в распределенной вычислительной среде с распределенной файловой системой. Задача является новой, поскольку известные решения в области интеграции больших данных обычно предлагают автоматизацию отдельных частей процесса интеграции и используют фиксированные алгоритмы для решения задач интеграции. Неизвестны системы с расширяемой и гибкой программной архитектурой, реализующей полный цикл автоматизированной интеграции данных.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


 

Публикации

1. Ступников С. А. Query-driven verification of data integration in the RDF data model Lobachevskii Journal of Mathematics, Т. 44, С. 205-2018 (год публикации - 2023)
10.1134/S1995080223010389

2. Сазонтьев В. В., Ступников С. А. Расширяемый подход к поиску и отбору источников данных для материализованной интеграции больших данных в распределенных вычислительных средах Pattern Recognition and Image Analysis, Т. 33, С. 147-156 (год публикации - 2023)
10.1134/S1054661823020141


 

Публикации

1. Палагашвили А. М., Ступников С. А. Reversible Mapping of Relational and Graph Databases Pattern Recognition and Image Analysis, Т. 33, С. 113-121 (год публикации - 2023)
10.1134/S1054661823020098

2. Сазонтьев В.В., Ступников С.А., Захаров В.Н. РАСШИРЯЕМЫЙ ПОДХОД К СЛИЯНИЮДАННЫХ В РАСПРЕДЕЛЕННЫХ ВЫЧИСЛИТЕЛЬНЫХ СРЕДАХ ИНФОРМАТИКА И ЕЁ ПРИМЕНЕНИЯ, Т. 17. Вып. 4. (год публикации - 2023)
10.14357/19922264230406