КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

ОБЩИЕ СВЕДЕНИЯ

Номер 22-21-00227

НазваниеПредставление структурной информации в задачах машинного обучения на графах

РуководительМакаров Илья Андреевич, кандидат наук (признаваемый в РФ PhD)

Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский университет "Высшая школа экономики", г Москва

Период выполнения при поддержке РНФ

2022 г. - 2023 г.

Конкурс№64 - Конкурс 2021 года «Проведение фундаментальных научных исследований и поисковых научных исследований малыми отдельными научными группами».

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-201 - Искусственный интеллект и принятие решений

Ключевые словаанализ графов, машинное обучение, векторное представление графа, много-классовая классификация, предсказание связей, обнаружение сообществ, анализ социальных сетей

Код ГРНТИ20.53.19

СтатусУспешно завершен

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ

Аннотация
Методы машинного обучения для структурной информации и рекомендательных систем обычно сводятся к ручному отбору признаков, сэмплированию или матричной факторизации. Такие методы часто привязаны к конкретной задаче и не масштабируемы для работы с большими данными. В последние годы векторные модели представления графов стали активной темой изучения в исследовательском сообществе, более 500 моделей предложено за последние пять лет. Основным их недостатком является отсутствие универсальной конструкции, которая поддерживала работу с разнообразными графами и разными типами признаков для вершин и ребер, при этом обобщая модель на динамически меняющиеся данные и при при этом сохраняя невысокую вычислительную сложность. Указанные задачи являются передовым краем исследований в области представления графов и имеют широкое применение во всех отраслях компьютерных наук; графовые нейронные сети являются наиболее изучаемым объектом исследований в компьютерных науках в 2020-2021 годах. Мы планируем построить несколько типов моделей, которые комбинируют различные подходы на основе сэмплирование окрестностей, структурной схожести, двойственного вложения графа инцидентности и графовых сверточных нейронных сетях для того, чтобы иметь возможность обрабатывать (не)ориентированные (не)взвешенные графы с возможной признаковой информацией у вершин и ребер, а также строить векторные модели с учетом максимизации качества для типовых задач машинного обучения на графах, таких как нахождение сообществ, много-классовая классификация, предсказание ребер и предсказание связей в графе знаний, а также рекомендательным системам. Результаты исследований будут опубликованы в ведущих международных журналах, индексируемых Q1-Q2 в Scopus и Web of Science, а также ведущих международных конференциях уровня A*, A и National по рейтингу Core.

Ожидаемые результаты
В результате проекта будут предложены универсальные масштабируемые модели построения векторных представлений графа, которые позволяют работать с (не)ориентированным (не)взвешенным графом с динамической структурой, при этом сохраняя высокое качество на четырех типовых задачах предсказаний на графах, и учитывающие необходимость дополнительного построения векторных представлений ребер для улучшения качества моделей. В рамках данного проекта новые модели будут апробированы на бенчмарковских датасетах для четырех задач: классификации вершин, предсказания ребер, кластеризации на графе, и визуализации структурных данных, а также при построении рекомендательной системы поиска соавторов на основе графов соавторства и цитирований, над чем члены проекта работают более двух лет. Также будут построены новые модели контекстных рекомендательных систем и модели дополнения графов знаний на основе предложенных методов представления графов. Проводимые исследования и ожидаемые результаты находятся на высоком международном уровне и будут представлены на ведущих международных конференциях и опубликованы в ведущих международных журналах. Гарантией этого является высокий международный статус основных исполнителей, их опыт работы в связанных областях и опубликованные труды. Разработанные технологии и инструменты применимы в самых разных областях компьютерных наук связанных с представлением структурной информации, семантических технологиях и анализе социальных сетей.

ОТЧЁТНЫЕ МАТЕРИАЛЫ

Аннотация результатов, полученных в 2022 году
В рамках проекта команда исследователей изучала различные методы векторизации графовой информации в задачах машинного обучения на графах, таких как предсказание связей, классификаций и кластеризация вершин, использование результатов в прикладных задачах, таких как визуализация подборок предметов и рекомендательные системы, анализ сетей цитирований, соавторства и транзакционных данных. Исследователями разработана система исследования новых предложений в рекомендательных системах на основе графовых методов исследования интересов пользователя и графовых нейронных сетей. Алгоритм основан на подходе к построению непрерывных представлений динамических графов индуктивной моделью TGN и случайных блужданиях. Данный алгоритм был адаптирован для решения задачи рекомендаций наборов предложений с возможностью исследования неизвестных состояний рекомендательной системы и использования данных результатов для дальнейшего инкрементального обучения модели на новых вершинах и ребрах. Разработанный подход был проанализирован на двух открытых бенчмарках для рекомендательных систем и показал сравнимые результаты. Статья с описанием алгоритма и его тестирования опубликована в журнале IEEE ACCESS. В области анализа текстовой информации, предложен подход к автоматическому анализу текстов на естественном языке на основе графа взаимодействия персонажей, его кластеризации. Полностью автоматический пайплайн для данного подхода показал сравнение различных составляющих и свою эффективность на примере анализа текстов Толкиена. В частности, данный подход позволяет автоматически извлекать связи и их типы для построения графа знаний на основе текста, автоматически анализировать качество полученного графа и сам текст. Данный подход представлен на конференции IEEE CINTI. Новые методы в области графовых нейронных сетей были применены для определения совместимости предметов одежды в единой подборке на основе взвешенного графа совстречаемости. Были созданы модели и методы, решающие успешно сразу две задачи: оценки совместимости предметов и рекомендации по заполнению недостающего предмета в подборке. Статья с описанием метода представлена в сборнике трудов LNCS издательства Springer. Для ориентированных графов была изучена задача рекомендации научных статей, которая рассматривалась как предсказание ссылок в статической сети цитирования. Было проведено сравнение нескольких методов на основе векторных представлений графов, текстовых моделей и смешанных моделей для задачи прогнозирования ссылок на данных о цитировании научных работ. Было показано, что смешанные модели, объединяющие информацию о структуре графа и текстовую атрибутивную, превосходят другие подходы, основанные только на графовых эмбеддингах или эмбеддингах на основе только текстовой информации. Множественные эксперименты продемонстрировали, что полученные смешанные модели сохраняют превосходную производительность даже при уменьшенной обучающей выборке. В области динамических графов, ученые разработали новый метод обучения представлений динамического графа, основанный на промежуточном представлении эволюции в виде последовательности интервальных графов. Были использованы вспомогательные представления – графы каузальности и следствия, которые моделируют паттерны, определяющие эволюцию графа: влияние существующих в графе ребер на образование новых, и влияние новых связей на свойства старых. Для выявления и краткосрочной, и долгосрочной зависимостей разработаны механизмы локальной и глобальной передачи сообщений, использующие память ребер. На основе этих механизмов реализован многокомпонентный индуктивный фреймворк, унифицирующий разнообразные архитектуры. Экспериментально показано превосходство выбранной конфигурации фреймворка по метрике AUC ROC в задаче динамического предсказания ребра на динамических графах без атрибутов UCI и Enron, по сравнению с моделями, использующими память вершин.

Публикации

1. А. Ященко, И. Макаров Knowledge Retrieval and Relation Mining from Tolkien’s History of Middle Earth IEEE, IEEE, Proceedings of CINTI'22, pp. 1-7 (год публикации - 2022)

2. Д. Загидуллина, И. Макаров Outfit Recommendation using Graph Neural Networks via Visual Similarity Springer, Proceedings of the 10th International Conference on Analysis of Images, Social Networks and Texts, revised papers. Lecture Notes in Computer Science, vol 13217. Springer, Cham, pp. 208-222 (год публикации - 2022) https://doi.org/10.1007/978-3-031-16500-9_18

3. Д. Киселев, И. Макаров Exploration in sequential recommender systems via graph representations IEEE Access, IEEE Access, Q1 journal, pp. 1-8 (год публикации - 2022) https://doi.org/10.1109/ACCESS.2022.3224816

Аннотация результатов, полученных в 2023 году
В рамках проекта улучшена система для работы с динамическими графами. Предложен способ компактно и выразительно представлять изменения, возникающие в графе со временем. Кроме того, был улучшен механизм передачи сообщений, появилась память ребер, которая позволяет учитывать причинно-следственные связи. Эксперименты показали, что эти улучшения помогли системе лучше предсказывать изменения в динамических сетях, в том числе на транзакционных данных. Участники проекта придумали метод для определения значений многозначных слов без использования размеченных данных. Они представили текст в виде графа совстречаемости, где вершинами являются конкретные слова, а ребрами факт их соседства в предложении. Далее, данные графы котируются с помощью графовой нейронной сети, чтобы учесть информации о контексте каждого слова через связи в графе. На последнем этапе полученные векторы кластеризовались, чтобы определить итоговые смыслы многозначных слов. Этот метод показал высокое качество и высокую скорость при работе с данными из набора RUSSE 2018. Еще одно исследование И. Макарова затрагивает новый метод кодирования вершин графа, который одновременно создает векторы для каждой вершины и находит, в какие сообщества она потенциально входит. Этот метод превзошел другие способы работы с данными из наборов Cora и CiteSeer.

Публикации

1. А. Оборевич, И. Макаров Iterative Graph Embedding and Clustering Proceedings of IWANN'23 conference, Springer, Oborevich, A. and Makarov, I., 2023, June. Iterative Graph Embedding and Clustering. In International Work-Conference on Artificial Neural Networks (pp. 68-79). Cham: Springer Nature Switzerland. (год публикации - 2023) https://doi.org/10.1007/978-3-031-43085-5_6

2. И. Хумонен, И. Макаров Co-occurrence Networks for Word Sense Induction Proceedings of SAMI'23 conference, IEEE, Humonen, I.S. and Makarov, I., 2023, January. Co-occurrence Networks for Word Sense Induction. In 2023 IEEE 21st World Symposium on Applied Machine Intelligence and Informatics (SAMI) (pp. 000097-000102). IEEE. (год публикации - 2023) https://doi.org/10.1109/SAMI58000.2023.10044503

3. Н. Северин, А. Савченко, Д. Киселев, М. Иванова, И. Киреев, И. Макаров Ti-DC-GNN: Incorporating Time-Interval Dual Graphs for Recommender Systems Proceedings of ACM RecSys'23 conference, ACM DL, Severin, N., Savchenko, A., Kiselev, D., Ivanova, M., Kireev, I. and Makarov, I., 2023, September. Ti-DC-GNN: Incorporating Time-Interval Dual Graphs for Recommender Systems. In Proceedings of the 17th ACM Conference on Recommender Systems (pp. 919-925). (год публикации - 2023) https://doi.org/10.1145/3604915.3608849

Возможность практического использования результатов
Наши разработки в сфере графовых нейронных сетей и непрерывных представлений имеют значимое приложение в обработке данных, основанных на графовой структуре. Эти технологии находят применение в различных видах данных, включая транзакционные данные и данные о взаимодействии пользователей с разнообразными объектами, такими как товары, фильмы или музыкальные композиции. Особенно выделяется модель, ориентированная на временные графы, которая продемонстрировала свое превосходство в предсказании последующих транзакций на публичных наборах данных. Точное предсказание будущих транзакций имеет важное значение для множества прикладных задач, включая выявление мошеннических операций, прогнозирование активности клиентов, в том числе вероятность дефолта, предсказание потребностей клиентов и оценку спроса на различные товары. Эти задачи помогают более эффективно управлять рисками и планировать экономическую деятельность в банковской и других отраслях. Разработанный подход для разрешения лексической многозначности без привлечения учителя позволяет снизить затраты при выполнении задач по извлечению именованных сущностей и созданию графа знаний. Построение высококачественного графа знаний является ключевым компонентом для создания доверенных систем на основе больших языковых моделей, поскольку обеспечивает контроль за правильностью используемой информации и предотвращает "галлюцинации" моделей. Модель, способная генерировать непрерывные представления графа с параллельной кластеризацией, продемонстрировала высокую точность в сетях цитирования и коллабораций. Это обстоятельство позволяет применять ее для создания системы поиска исполнителей и контрагентов, наилучшим образом соответствующих требованиям конкретного заказчика.