Исследование и разработка технологий обработки и анализа мультимодальных неструктурированных данных из различных источников и их применимости для решения экономических и социальных задач

КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

ОБЩИЕ СВЕДЕНИЯ

Номер проекта 22-11-00135

НазваниеИсследование и разработка технологий обработки и анализа мультимодальных неструктурированных данных из различных источников и их применимости для решения экономических и социальных задач

Руководитель Николенко Сергей Игоревич, Доктор физико-математических наук

Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский университет ИТМО" , г Санкт-Петербург

Конкурс №68 - Конкурс 2022 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами»

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах; 01-201 - Искусственный интеллект и принятие решений

Ключевые слова МАШИННОЕ ОБУЧЕНИЕ, БОЛЬШИЕ ДАННЫЕ, ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ, СОЦИАЛЬНЫЕ СЕТИ

Код ГРНТИ20.23.25 28.23.25

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ

Аннотация
В эпоху цифровой революции, появления сети Интернет, социальных сетей, а также смартфонов и носимых устройств, огромное множество данных, в том числе, содержащих сведения о личности человека, оказались доступны в оцифрованном виде. Глубина проникновения социальных сетей в повседневную жизнь человека возрастает с каждым днем. Согласно результатам исследований ведущей маркетинговой компании GWI за 2015 год, в среднем каждый человек использует около трех различных социальных сетей ежедневно. Количество сообществ и аккаунтов пользователей в социальных сетях постоянно растет. Социальные сети представляют собой уникальный источник массовых первичных данных. При этом, пользователи сами выкладывают эти данные в открытый доступ. Эти данные могут быть использованы для выявления первичных признаков заболеваний на ранних стадиях, анализа потребительского спроса, предупреждения террористических угроз, антисоциального поведения и т.п. Перечень сведений из информационных источников сети Интернет, в том числе, из социальных сетей, может быть использован для решения широкого спектра актуальных и значимых задач, обозначенных в Стратегии НТР РФ (далее - Стратегии), так называемых, “больших вызовов”, создающих существенные риски для общества, экономики, системы государственного управления, объективно требующих реакции со стороны государства совокупности угроз, связанных, в частности, с экстремизмом, асоциальным поведением людей, представляющих внутренние угрозы национальной безопасности. Обработка этих данных может производиться с использованием методов анализа больших данных, машинного обучения и искусственного интеллекта. С учетом вышеизложенного, разработка и использование передовых методов анализа этих данных для решения экономических и социальных задач является весьма актуальной. Кроме этого, немаловажным является наличие четкого перечня экономических и социальных задач научно-технологического развития РФ, решение которых возможно с использованием технологий больших данных, машинного обучения и искусственного интеллекта, а также, методов и подходов, использование которых возможно для решения задач из этого перечня, в том числе, порядка их прикладного применения. Этот перечень будет необходим в ходе управления стратегией разработки соответствующих технологий. Настоящий проект направлен на исследование и решение проблемы применения технологий больших данных, машинного обучения и искусственного интеллекта, в частности, мультимодальных неструктурированных данных из социальных сетей, для решения спектра социальных и экономических задач в рамках научно-технологического развития РФ. Кроме этого, проект направлен на решение проблемы повышения эффективности обработки сверхбольших объемов мультимодальных данных из различных источников, включая социальные сети. При этом, планируемый в качестве результата проекта, прототип информационной системы для анализа мультимодальных данных из различных источников, в том числе, социальных сетей, в полной мере будет способствовать развитию отечественного инструментария для анализа социально и экономически значимой информации в русскоязычном сегменте сети Интернет, созданию отечественных систем обработки больших объемов данных, машинного обучения и искусственного интеллекта, необходимость которого, в явном виде указана в составе одного из направлений Стратегии НТР РФ. Кроме этого, с учетом возможного варианта использования, планируемых для получения, результатов проекта, обеспечивается соответствие таким направлениям Стратегии НТР РФ, как «переход к персонализированной медицине, высокотехнологичному здравоохранению» и «противодействие техногенным, биогенным, социокультурным угрозам, терроризму и идеологическому экстремизму, а также киберугрозам и иным источникам опасности для общества, экономики и государства». Научная проблема, на решение которой направлен проект, является значимой для вышеуказанных направлений Стратегии НТР РФ. Как показывает проведенный обзор патентных и непатентных информационных источников, на текущий момент времени, фактически, отсутствуют научно-технические и прикладные решения для создания описательных и прогностических моделей личности человека, способных адекватно и с приемлемой точностью использовать эти данные. Более того, научно-технических и прикладных решений для создания этих моделей, которые бы использовали несколько источников данных, существует ничтожно мало. Большинство используемых для анализа данных социальных сетей не используют преимущества данных о пользователе из нескольких источников. Новизна исследования заключается в разработке новых методов анализа мультимодальных данных из различных источников, профилирования пользователей социальных сетей, дескриптивных и прогностических моделей пользователя, восстановленных по различным источникам данных, в разработке новых моделей, алгоритмов для выявления сообществ, компонентов информационных и рекомендательных систем, алгоритмов поиска множества пользователей, похожих на заданного, компонент поддержки принятия решений в медицине, интеллектуальных компонент электронных помощников, моделей и алгоритмов выявления лиц, склонных к рискованному поведению на основе предложенных моделей. Научная новизна проекта заключается и в том, что, в рамках планируемых для проведения исследований и разработок, будет проведено исследование и разработка абсолютно новых методов, использующих различные типы данных (изображения, геолокация, сведения из чатов и микроблогов, финансовые транзакции). При этом, будут разработаны специальные модели объединения разнородных данных, включая, пространственные и временные, а также предложен метод многопоточного продольного анализа данных. Кроме этого, разработанные новые методы позволят использовать в качестве источника данных сведения сразу из нескольких социальных сетей, что позволит улучшить качество решения соответствующих задач. Окончательный перечень разрабатываемых в ходе проекта новых моделей, алгоритмов и методов анализа мультимодальных данных из различных источников, будет представлен по результатам анализа существующих и их применимости для решения того или комплекса социальных и экономических задач в рамках стратегии НТР РФ. В рамках данного проекта впервые в России будут разработаны методы и инструменты, позволяющие определять психологические, индивидуально-типологические и другие особенности пользователей социальных сетей на основе результатов анализа мультимодальных данных из различных источников.

ОТЧЁТНЫЕ МАТЕРИАЛЫ

Публикации

1. Янг Ци, Фарсеев А.И., Николенко С.И., Фильченков А.А. Do we behave differently on Twitter and Facebook: Multi-view social network user personality profiling for content recommendation Frontiers in big Data, Frontiers in big Data 5 (2022) (год публикации - 2022)
10.3389/fdata.2022.931206

2. Янг Ци, Николенко С.И., Хуанг Альфред. Фарсеев А.И., Personality-Driven Social Multimedia Content Recommendation Association for Computing MachineryNew YorkNYUnited States, Proceedings of the 30th ACM International Conference on Multimedia (pp. 7290-7299). (год публикации - 2022)
10.1145/3503161.3548769

Публикации

1. Хуанг А., Янг Ци, Николенко С.И., Онгпин М., Государев И., Дуонг Н., Лепихин К., Вишняков С., Чу-Фарсеева Ю., Фарсеев А.И. SoCraft: Advertiser-level Predictive Scoring for Creative Performance on Meta Proceedings of the Sixteenth ACM International Conference on Web Search and Data Mining, Proceedings of the Sixteenth ACM International Conference on Web Search and Data Mining (WSDM 2023), pp.1132-1135 (год публикации - 2023)
10.1145/3539597.3573032

2. Янг Ци, Целепис Х., Николенко С.И., Патрас И., Фарсеев А.И. “Just To See You Smile”: SMILEY, a Voice-Guided <s>GUY</s> GAN Proceedings of the Sixteenth ACM International Conference on Web Search and Data Mining, Proceedings of the Sixteenth ACM International Conference on Web Search and Data Mining (WSDM 2023), pp.1196-1199 (год публикации - 2023)
10.1145/3539597.3573031

3. Янг Ци, Онгпин М., Николенко С.И., Хуанг А., Фарсеев А.И. Against Opacity: Explainable AI and Large Language Models for Effective Digital Advertising Proceedings of the 31st ACM International Conference on Multimedia, Proceedings of the 31st ACM International Conference on Multimedia (MM 2023), pp. 9299–9305 (год публикации - 2023)
10.1145/3581783.3612817

Аннотация результатов, полученных в 2024 году
В рамках проекта за отчетный год проведено несколько важных исследований в области искусственного интеллекта, обработки естественного языка и их прикладных применений. Мы нашли много новых применений большим языковым моделям и другим современным технологиям обработки естественных языков, в частности, новые технологии онлайн-маркетинга, новые методы работы с программным кодом и новые методы работы с малоресурсными языками. Ниже приводится обзор основных достижений проекта. 1. Новые подходы к маркетинговой аналитике Современный маркетинг требует анализа огромных объемов данных, что становится сложной задачей для специалистов. Для решения этой проблемы мы разработали систему SOMONITOR, которая сочетает технологии объяснимого искусственного интеллекта (explainable AI) и большие языковые модели (LLM). Система автоматически анализирует рекламу, выделяя такие ключевые особенности, как целевая аудитория, тональность сообщений и потребности пользователей, к которым реклама призвана апеллировать. Также наша система помогает создавать готовые нарративы для новых рекламных кампаний. SOMONITOR продемонстрировала свою эффективность на практике: в рамках практического тестирования удалось сократить время на выполнение маркетинговых задач до 5 раз, что позволило командам сосредоточиться на творческой работе. Система также включает модели предсказания CTR (click-through rate, кликабельность), который позволяет заранее оценивать эффективность рекламных материалов. Этот подход обеспечивает точные рекомендации по улучшению контента, что подтверждено в реальных экспериментах с использованием рекламных данных. 2. Использование больших языковых моделей в программировании Один из главных вызовов современного программирования — это автоматизация таких задач, как написание, анализ и исправление кода. В нашем исследовании мы систематизировали подходы к применению больших языковых моделей (LLM) в этих задачах. Были описаны техники адаптации моделей, такие как обучение с подкреплением на основе человеческих предпочтений (RLHF), методы эффективного дообучения (PEFT) и использование специализированных запросов (prompts). Мы также проанализировали популярные тестовые наборы, включая HumanEval и MBPP, которые помогают оценивать качество моделей в реальных условиях. Результаты исследования подчеркивают перспективность применения LLM в задачах программирования и определяют направления для дальнейших улучшений. 3. Улучшение суммаризации программного кода с помощью контекста проекта Мы представили новый метод ProConSul, который позволяет значительно повысить качество автоматического порождения текстовых описаний кода (например, для автоматического документирования). Особенность метода — использование информации о проекте, в частности связи между функциями и их зависимости. Эта информация помогает моделям генерировать более точные и содержательные описания для кода на языке C/C++, что особенно актуально для крупных проектов с открытым исходным кодом; в нашем исследовании мы проводили эксперименты на таких больших открытых репозиториях, как ffmpeg и openssl. Наш подход продемонстрировал улучшение метрик качества (например, BLEU) на 25%, что открывает новые возможности для автоматического порождения документации кода. 4. Создание ресурсов для кыргызского языка Кыргызский язык относится к числу малоресурсных, что создает трудности для разработки качественных инструментов обработки текста. Мы разработали методику полуавтоматической разметки кыргызского текста, основанную на использовании ресурсов турецкого языка. Созданный нами трибанк из 10,000 предложений существенно улучшил точность работы синтаксических парсеров, что подтверждается ростом показателей на 15%. Этот ресурс станет основой для создания других лингвистических инструментов, таких как машинный перевод и автоматическая обработка текста. Заключение Результаты нашего проекта подчеркивают важность объединения современных технологий искусственного интеллекта и практических задач. Мы не только предложили теоретически обоснованные решения, но и продемонстрировали их эффективность на реальных данных. Созданные нами методики и инструменты могут быть полезны в самых разных областях — от программирования и лингвистики до маркетинга. В будущем мы планируем продолжить развитие этих технологий, делая их доступными и применимыми для широкой аудитории.

Публикации

1. Ломшаков В.М., Николенко С.И. Применения больших языковых моделей для задач порождения и обработки программного кода Записки научных семинаров ПОМИ, Санкт-Петербург, Россия; перевод публикуется в Journal of Mathematical Sciences, Springer; приводится ISSN и данные об индексации Journal of Mathematical Sciences, Записки научных семинаров ПОМИ, т. 540, с. 277-351 (год публикации - 2024)

2. Алексеев А., Тиллабаева А., Кабаева Г.Дж., Николенко С.И. Применение синтаксических парсеров для турецкого языка в задаче разметки кыргызских синтаксических корпусов Записки научных семинаров ПОМИ, Санкт-Петербург, Россия; перевод публикуется в Journal of Mathematical Sciences, Springer; приводится ISSN и данные об индексации Journal of Mathematical Sciences, Записки научных семинаров ПОМИ, т. 540, с. 253-276 (год публикации - 2024)

3. Ломшаков В.М., Подивилов А., Савин С., Барышников О., Лисевич А., Николенко С.И. ProConSuL: Project Context for Code Summarization with LLMs 2024 Conference on Empirical Methods in Natural Language Processing (EMNLP 2024), Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: Industry Track, pp. 866-880 ACL, 2024 (год публикации - 2024)
10.18653/v1/2024.emnlp-industry.65

Возможность практического использования результатов
Результаты проекта имеют значительный потенциал для практического применения в различных отраслях экономики и социальной сфере. Разработанные технологии и модели способны стимулировать экономический рост, повышать эффективность бизнеса и улучшать качество жизни. Ниже представлены ключевые аспекты возможного применения результатов проекта. 1. Разработка и внедрение новых технологий в цифровом маркетинге Разработанные в рамках проекта системы, такие как SOMONITOR, позволяют значительно повысить эффективность маркетинговых кампаний за счёт автоматизации анализа контента, прогнозирования кликабельности и формирования стратегий продвижения. Основные преимущества: — снижение затрат на рекламу за счёт повышения точности прогнозирования эффективности контента; — оптимизация времени выполнения ключевых задач маркетологов, что особенно актуально для малого и среднего бизнеса. — создание облачных платформ для автоматизированного анализа рекламы. 2. Улучшение разработки программного обеспечения Метод ProConSul, разработанный для анализа и суммаризации кода, способен существенно упростить работу разработчиков в крупных проектах. Возможности применения: — автоматизация создания документации для программного кода, что особенно важно для open-source проектов и корпоративных разработок; — снижение времени и затрат на тестирование и рефакторинг кода за счёт анализа проектного контекста; — интеграция в инструменты DevOps, что ускорит процессы разработки и развёртывания программного обеспечения. 3. Развитие технологий для работы с малоресурсными языками Создание лингвистических ресурсов, таких как трибанк для кыргызского языка, открывает новые возможности для развития инструментов автоматической обработки текста. Возможные направления применения: — создание систем машинного перевода, которые обеспечат доступ к информации для носителей малоресурсных языков; — разработка образовательных приложений и систем поддержки обучения национальным языкам; — интеграция технологий в государственные системы документооборота, что повысит доступность и удобство их использования. Таким образом, результаты проекта обладают высокой прикладной ценностью и способны внести вклад в развитие российской экономики и социальной сферы. Они позволяют не только повысить конкурентоспособность отечественных технологий, но и обеспечить устойчивое развитие за счёт внедрения инновационных подходов в бизнес, государственное управление и образование.