КАРТОЧКА
ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ
Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.
ОБЩИЕ СВЕДЕНИЯ
Номер 23-11-00358
НазваниеМодели, методы и алгоритмы для анализа мультимодальных данных биомедицинской направленности
РуководительТутубалина Елена Викторовна, Доктор физико-математических наук
Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Казанский (Приволжский) федеральный университет", Республика Татарстан (Татарстан)
Период выполнения при поддержке РНФ | 2023 г. - 2025 г. |
Конкурс№80 - Конкурс 2023 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами».
Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-518 - Системы текстового поиска, обработки и анализа естественного языка
Ключевые словаавтоматическая обработка текстов, машинное обучение, глубокое обучение, извлечение информации, графы знаний, биомедицинская область
Код ГРНТИ20.53.19
ИНФОРМАЦИЯ ИЗ ЗАЯВКИ
Аннотация
Одной из наиболее выдающихся черт современной науки и технологии является беспрецедентный рост объема накопленных данных различного типа. Это наблюдение особенно верно отражает ситуацию в области разработки новых лекарственных препаратов и оптимизации медикаментозного лечения, где объем данных о лекарственных средствах растет из-за появления высокопроизводительных методов химического синтеза, высокопроизводительного биологического скрининга и быстрого накопления записей, связанных со здоровьем. Существующие модели обработки данных биомедицинской направленности как правило направлены на обработку неструктурированных данных с помощью обучения языковых моделей (pre-trained language models, PLMs) и игнорируют существование дополнительных модальностей, например, в виде графовых представлений онтологий (графов знаний) и свойств сущностей (представлений лекарств в виде хемоинформатических признаков).
Цель проекта — разработка моделей и алгоритмов, направленных на комплексное решение задачи обработки информации о языке и мире, представленной как в текстовом виде, так и в виде графовых представлений онтологий и векторных представлений сущностей, для решения прикладных задач биомедицинской направленности. Для достижения этих целей мы планируем решить следующие задачи:
-- дистилляция языковых моделей знаниями (knowledge distillation), представленными в виде биомедицинского графа знаний;
-- выравнивание между независимо обученными представлениями данных различных модальностей для построения единого пространства представлений;
-- выделение именованных сущностей, таких как заболевания, части тела, процедуры, лекарства (named entity recognition);
-- соотнесение выделенных в тексте именованных сущностей и узлов в графе знаний (entity linking);
Особое внимание планируется уделить следующим прикладным задачам биомедицинской направленности:
-- установление соответствия между клиническими записями врачей и международной классификации болезней (МКБ-10) (ICD coding);
-- предсказание побочных лекарственных реакций по химическому и текстовому представлению лекарства;
-- анализ аргументации (argumentation mining) в дискуссиях людей о здоровье;
Методы, разработанные в рамках проекта, будут оцениваться на аннотированных наборах данных на нескольких языках, включая русский язык. Кроме того, будет оцениваться эффективность методов переноса обученных моделей (transfer learning) между разными источниками текстов и биомедицинскими подобластями.
В рамках проекта предлагается получить ряд прорывных результатов в различных областях обработки текстов на естественном языке; все предполагаемые результаты проекта являются новыми. Все разрабатываемые методы и модели будут соответствовать мировому уровню исследований.
Ожидаемые результаты
Ожидаются следующие основные результаты.
1. Разработка и оценка новой модели на основе дистилляции языковой модели знаниями из биомедицинского графа. Разработка архитектуры, не учитывающей тип отношения при передаче сообщений между вершинами биомедицинских концептов. Разработка архитектуры, учитывающей как тип отношений между вершинами концептов, так и семантические группы, соответствующие концептам. Программные реализации моделей, экспериментальное сравнение реализованных моделей с существующими методами.
2. Методы выравнивания между независимо обученными представлениями данных различных модальностей для построения единого пространства представлений. Программные реализации методов, экспериментальное сравнение реализованных методов с существующими методами.
3. Разработка и оценка методов комбинирования выходов двух текстовых фрагментов для анализа аргументации в комментариях пользователей на медицинские темы. Собранная и размеченная коллекции твитов о вакцинации с разметкой для двух задач анализа аргументации. Программные реализации моделей, эксперименты по переносу знаний (knowledge transfer) между наборами текстов с разными утверждениями.
4. Разработка модели извлечения информации генеративной архитектуры из биомедицинских корпусов с различными схемами аннотирования с помощью многозадачного обучения (multi-task learning) и стратегии генерации запросов (prompt engineering). Программные реализации моделей, экспериментальное сравнение реализованных моделей с существующими методами.
Общественная и практическая значимость результатов определяется тем, что результатом исследований будут многоязыковые модели, работающие с данными разных модальностей, что позволит использовать их для улучшения решений прикладных биомедицинских задач на русском и других языках. Все разрабатываемые методы и модели будут соответствовать мировому уровню исследований. А с учетом ориентации на эксперименты с русскогоязычными корпусами и обработку русскоязычных текстов решение задач, которые ставятся нами в предлагаемом проекте, будет представлять собой существенное продвижение в области анализа естественных языков (natural language processing).
ОТЧЁТНЫЕ МАТЕРИАЛЫ
Аннотация результатов, полученных в 2023 году
Проведены исследования в нескольких направлениях в соответствии с планом работы на первый год выполнения проекта, включающие обзор исследований в области глубокого обучения, разработку и оценку новой модели на основе языковой модели и знаний из графа UMLS, разработку и оценку методов для анализа аргументации, анализ моделей в постановке сдвига данных.
В течение 2023 года проекта были получены важные результаты во всех заявленных направлениях.
С учетом быстрого развития исследований в области глубокого обучения на первом этапе проекта была проанализирована современная литература по методам совместного обучения моделей разных модальностей, обучения на графах, дистилляции знаний. Подробный обзор и анализ недостатков существующих методов совместного обучения моделей разных модальностей легли в основу нашей статьи "Graph-Enriched Biomedical Language Models: A Research Proposal», представленной в виде стендового доклада в рамках секции студенческих докладов международной конференции по компьютерной лингвистике The 13th International Joint Conference on Natural Language Processing and the 3rd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics IJCNLP-AACL 2023 (рейтинг B, CORE Conference Ranking). В статье сформулирована перспективная и мало исследованная в настоящий момент стратегия выравнивания представлений разных модальностей, в рамках которой две или более предобученные одномодальные модели используются для получения единого векторного пространства за счет обмена взаимодополняющей информацией о некотором объекте, например, о биомедицинском концепте. Последний, с одной стороны, может быть представлен своим текстовым наименованием, а с другой — как вершина графа знаний, обладающая контекстом в форме локального подграфа своих соседей.
Одним из направлений исследований на первом году проекта стала разработка новых двухмодальных моделей дистилляции языковой модели знаниями из графа UMLS. Идея дистилляции состоит в обогащении представлений одной модальности за счет информации, содержащейся в представлениях другой. Биомедицинская предметная область характеризуется наличием большого объема структурированных данных, хранящихся в многоязыковых онтологиях, таких, как например, Unified Medical Language System (UMLS). Помимо наименований биомедицинских концептов на разных языках UMLS содержит также тройки знаний, описывающие попарные отношения между концептами и задающие граф знаний предметной области. Наличие графа знаний позволяет ввести в дополнение к текстовой модальности дополнительную графовую модальность. Таким образом, биомедицинский концепт оказывается задан текстовым наименованием и локальным подграфом графа знаний, состоящим из самой вершины и некоторого числа ее соседей.
На первом году проекта была разработана новая двухмодальная архитектура GEBERT на основе дистилляции языковой модели знаниями из графа UMLS и различных архитектур графовых нейронных сетей: (i) GraphSAGE, (ii) R-GCN, (iii) GAT, (iv) гетерогенной модификации GraphSAGE. Рассмотренные графовые нейронные сети являются реализациями фреймворка обработки сообщений (Message Passing) с разным способом агрегации признаков вершин локального подграфа. Процесс обучения разработанных моделей состоит в многозадачном обучении (multi-task learning) с помощью трех контрастивных функций потерь: (i) "текст-текст", (ii) "вершина-вершина", (iii) "текст-вершина". В то время как первые две позволяют языковой и графовой моделям выучивать информативные векторные представления внутри своей модальности, предложенная функция "текст-вершина" позволяет осуществлять обмен знаниями между двумя одномодальными представлениями данных: текстовым наименованием и локальным подграфом биомедицинского концепта. Для оценки разработанных моделей были использованы 7 корпусов: 5 англоязычных, 1 многоязыковой корпус Mantra GSC и 1 русскоязычный корпус RuCCoN. При сравнении разработанных моделей были использованы следующие передовые биомедицинские языковые модели: (i) модель SapBERT, обучающейся лишь с функцией потерь "текст-текст", (ii) модель CODER, добавляющая к процедуре обучения SapBERT обучение на тройках знаний из UMLS. В результате экспериментов на англоязычных корпусах предложенная нами модель GraphSAGE-GEBERT оказалась лучшей по точности (accuracy) на всех пяти корпусах со средним приростом 0,71% (83% против 82,3%) и 1,36% (83% против 81,6%) точности относительно англоязычных версий SapBERT и CODER соответственно. На многоязыковом корпусе Mantra лучшей моделью оказалась RGCN-GEBERT, превзошедшая многоязыковые SapBERT и CODER на 4,29% (77,72% против 73,43%) и 2,14% (77,72% против 75,58%) точности соответственно. На русскоязычном корпусе RuCCoN лучшими по качеству оказались GraphSAGE-GEBERT и GAT-GEBERT, достигнув: (i) 30,3% (+0,3%) и 30,4% (+0,4%) точности соответственно при 30% у многоязыковой версии SapBERT на zeroshot разбиении корпуса; (ii) 30,4% (+0,9%) и 30,2% (+0,7%) соответственно против 29,5% у многоязыковой версии SapBERT на stratified разбиении корпуса. Результаты экспериментов опубликованы в статье "Graph-Enriched Biomedical Entity Representation Transformer", представленной в форме устного доклада на международной конференции The 14th Conference and Labs of the Evaluation Forum CLEF 2023.
В первый год проекта было проведено исследование анализа аргументации в комментариях пользователей о COVID-19. Исследовались две задачи:
(i) определение позиции/темы (stance detection);
(ii) определение аргумента/довода (premise detection).
Первая задача направлена на определение точки зрения (позиции) автора текста в отношении данного утверждения. Твиты вручную аннотируются по позициям в соответствии с тремя категориями: “за”, “против” и “ни то, ни другое” (in-favor, against, and neither). Вторая задача состоит в том, чтобы предсказать, будет ли хотя бы один довод/аргумент в тексте (бинарная классификация).
Подготовлена коллекция твитов (9,226 твитов), связанных с мандатами COVID-19:
1) 6,156 твитов относятся к трем темам: поддержка или несогласие с использованием масок, с закрытием школ и с приказами оставаться дома. Эти твиты - данные SMM4H 2022 shared task 2.
2) Новая коллекция, собранная и вручную размеченная: 2,070 твитов о вакцинации.
В дополнение к аннотации позиции автора, были изучены эмоции, выраженные в твитах по поводу вакцинации, чтобы определить, коррелируют ли конкретные эмоции с позицией авторов по поводу обязательной вакцинации. Были использована существующая модель, доступная по ссылке https://huggingface.co/j-hartmann/emotion-english-distilroberta-base/. Наиболее распространенными эмоциями, наблюдаемыми в твитах об обязательной вакцинации, являются гнев, страх и радость.
Проведено обучение нескольких архитектур на обучающей выборке SMM4H 2022 Task 2, оценка на тестовой выборке SMM4H 2022 Task 2 и новой размеченной выборке. Все модели были обучены в двух режимах: базовом (с использованием только твитов) и с использованием техники раннего объединения двух текстовых фрагментов (твит и тема) как двух модальностей (early fusion). Все модели работают значительно лучше, чем базовое решение. Более сложные предложенные модели, использующие синтаксические возможности (BART+syntax features) или двойные архитектуры (DANBert), работают намного лучше, чем модель языка общей предметной области (BERT). Наилучшие результаты по новому набору данных, содержащему данные об обязательной вакцинации, продемонстрировал DANBert.
По результатам данного исследования подготовлена публикация “Data and models for stance and premise detection in COVID-19 tweets: Insights from the Social Media Mining for Health (SMM4H) 2022 shared task”, для журнала Journal of Biomedical Informatics (Q1).
Результаты исследований по проекту были опубликованы в 4 научных публикациях, три из них представлены в виде докладов на международных конференциях по компьютерной лингвистике и машинному обучению.
Публикации
1. Андрей Саховский, Александр Панченко, Елена Тутубалина Graph-Enriched Biomedical Language Models: A Research Proposal Proceedings of the 13th International Joint Conference on Natural Language Processing and the 3rd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics: Student Research Workshop, Proceedings of the 13th International Joint Conference on Natural Language Processing and the 3rd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics: Student Research Workshop, pages 82–92 (год публикации - 2023)
2. Андрей Саховский, Елена Тутубалина Cross-Lingual Transfer Learning in Drug-Related Information Extraction from User-Generated Texts Programming and Computer Software, Programming and Computer Software, 2023, Vol. 49, No. 7, pp. 590–595. (год публикации - 2023) https://doi.org/10.1134/S036176882307006X
3. Андрей Саховский, Наталья Семенова, Артур Кадурин, Елена Тутубалина Graph-Enriched Biomedical Entity Representation Transformer Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), LNCS, volume 14163, С. 109-120 (год публикации - 2023) https://doi.org/10.1007/978-3-031-42448-9_10
4. Олег Сомов, Елена Тутубалина Shifted PAUQ: Distribution shift in text-to-SQL Proceedings of the 1st GenBench Workshop on (Benchmarking) Generalisation in NLP, Association for Computational Linguistics, Proceedings of the 1st GenBench Workshop on (Benchmarking) Generalisation in NLP (pp. 214-220). (год публикации - 2023)