КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 18-11-00284

НазваниеМатематические модели и инструментарий для анализа социально значимой информации в русскоязычном сегменте Интернета

РуководительТутубалина Елена Викторовна, Доктор физико-математических наук

Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Казанский (Приволжский) федеральный университет", Республика Татарстан (Татарстан)

Период выполнения при поддержке РНФ 2018 г. - 2020 г.  , продлен на 2021 - 2022. Карточка проекта продления (ссылка)

Конкурс№28 - Конкурс 2018 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами».

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-518 - Системы текстового поиска, обработки и анализа естественного языка

Ключевые словаизвлечение информации, автоматическая обработка текстов, машинное обучение, глубокое обучение, анализ мнений

Код ГРНТИ20.53.19


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Проект предусматривает создание комплексной системы моделей, методов, алгоритмов и программных средств для анализа русскоязычных текстов из открытых источников, в том числе из сети Интернет. В настоящее время накоплен огромный объем текстовой неструктурированной информации. Общедоступные тексты в явной или скрытой форме содержат обширный набор социально значимой информации. В особой степени это касается здравоохранения в целом, поскольку оно влияет на развитие человеческого потенциала, и сферы потребления и оценки населением лекарственных средств в частности. Следует отметить, что задача анализа в электронных источников информации в такой постановке до сих пор не ставилась и развитых инструментальных средств для её решения нет. Поэтому существует потребность в автоматическом анализе информации для оценки качества здравоохранения и лекарственного обеспечения населения. Специфика задачи подразумевает комплексный учёт тональной, эмотивной, тематической составляющей текста и его специализированной семантики. В настоящее время извлечение полезных знаний из текстов определенной предметной области осуществляется по большей части вручную или с помощью базовых методов машинного обучения. В рамках проекта ставится задача разработки новых моделей, методов и программных средств обработки текстов с целью создания инструментов и их комбинирования для решения прикладных задач в сфере здравоохранения. Новизна проекта состоит в том, что на его основе: 1) будет разработан комплекс новых или модифицированных алгоритмов, включающих: - методы глубокого обучения (deep learning) для синтаксического разбора предложения и выявления кореферентных выражений; - методы глубокого обучения для снятия омонимии (word sense disambiguation); - методы определения аспектных терминов и аспектных категорий; - методы глубокого обучения для выделения оценок, включая эксплицитные (с помощью оценочной лексики) и имплицитные (с использованием оценочных фактов); - методы выявления модификаторов полярности слов и выражений, основанные на распределенных представлениях и подходах к обработке композициональной семантики; - методы автоматического порождения оценочных словарей определенной предметной области, использующие нейтральные контрастные коллекции (в частности, корпус новостей) и тематические модели, включающие в себя переменные, связанные с тональностью слов; 2) будет создан инструмент (с открытым исходным кодом) для анализа социально значимой информации; важными компонентами системы будут модули лингвистического процессора (в частности, модули графематического, морфологического и синтаксического анализа) на основе глубоких нейронных сетей и семантического пространства представлений слов и символов. Результаты проекта могут быть применены для широкого круга задач, в частности, для: - оценки терапевтической эффективности биологически активных добавок и биологических лекарственных средств; - диагностики уровня качества медицинских услуг для своевременной компенсации нежелательных отклонений; - мониторинга сформированности профессиональных компетенций; - выявлении преобладающих категорий жалоб населения; - автоматического анализа рекламы лекарственных средств в специализированных периодических изданиях для установления соответствия рекламы критериям ВОЗ продвижения лекарств на рынок.

Ожидаемые результаты
Ожидаются следующие основные результаты. 1. Новые глубокие модели для интеллектуального анализа текстов на русском языке, включающие модели выявления кореферентных выражений, разрешения смысла слов, синтаксического разбора предложения. Программные реализации нескольких глубоких моделей распределенных представлений слов, а также методов выявления модификаторов полярности слов и выражений, основанные на распределенных представлениях и подходах к обработке композициональной семантики. Сравнительный анализ реализованных моделей как на публично доступных коллекциях (Wikipedia, открытый корпус (opencorpora.org)), так и на подготовленных в рамках проекта коллекциях текстов. 2. Для применения методов машинного обучения с учителем будет подготовлен и опубликован новый размеченный корпус отзывов комментариев пользователей о парафармацевтических товарах (не менее 400 комментариев). В разметку будет внесена следующая информация: аспектные термины (эксплицитные, имплицитные), тональность (позитивная, негативная, нейтральная, смешанная), статус термина (ирония, гипотетическое применение, персональный опыт и др.), аспектная категория (например, эффективность, безопасность, доступность), оценка аспектной категории. 3. Новые методы определения аспектных терминов, аспектных категорий, эксплицитных (явных) и имплицитных оценок из сообщений пользователей, использующие комбинированные подходы, сочетающие разработанные глубокие модели и лингвистические ресурсы в виде словарей оценочных слов. Программные реализации методов на основе подхода к адаптации уже обученных моделей к новым предметным областям и подходов к обучению, связанных с многозадачным обучением и использованием двуязычных представлений слов и коллекций. Сравнительный анализ реализованных методов на корпусах анализа тональности. 4. Новые методы автоматического порождения оценочных словарей определенной предметной области, использующие нейтральные контрастные коллекции и тематические модели, включающие в себя переменные, связанные с тональностью слов. Будет улучшен предложенный ранее участниками проекта подход к оптимизации гиперпараметров тематических моделей с помощью EM-алгоритма путем интеграции моделей распределенных представлений слов. 5. Впервые для русского языка будет решена задача выделения оценок о лекарственных средствах и парафармацевтических товаров. Для апробации развитого инструмента (с открытым исходным кодом) для анализа социально значимой информации будет подготовлена коллекция текстов о нескольких группах продуктов сферы здравоохранения (не менее 200 тыс. комментариев). Будет проведен сравнительный анализ извлекаемых аспектных терминов и оценок из коллекций русскоязычных текстов и англоязычных текстов о препаратах для лечения сердечно-сосудистых заболеваний (case study). Общественная значимость результатов определяется тем, что объектом исследований являются текстов из открытых источников, в том числе из сети Интернет, где содержится обширный набор информации для оценки качества здравоохранения и лекарственного обеспечения населения. Все полученные результаты будут соответствовать мировому уровню. А с учетом ориентации на обработку русскоязычных текстов и того, что задачи, которые ставятся нами в предлагаемом проекте, являются новыми, ранее для русского языка не решались, их решение будет представлять собой существенное продвижение в области анализа естественных языков (natural language processing).


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2018 году
Проведены исследования по анализу текстов пользователей медицинской направленности в следующих задачах: (I) сбор коллекции пользовательских отзывов на русском языке и создание размеченного корпуса текстов, (II) разрешение кореференции, (III) нормализация медицинских концептов, (IV) классификация лекарственных реакций. I. На первом этапе исследования (2018 год) ключевым элементом являлось создание размеченного корпуса русскоязычных отзывов о лекарствах. На русском языке до сих пор отсутствовали значимые корпуса аннотированных отзывов пользователей и наш созданный корпус – это первый сложно аннотированный русскоязычный корпус отзывов, который может быть применен в задачах анализа текстов, посвященных лекарственным препаратам, средствами интеллектуального анализа данных. При его создании учитывалась специфика российских условий, в частности потребности Росздравнадзора. В базах Росздравнадзора аккумулируются данные о рисках применения лекарственных препаратов с целью обеспечения их безопасного использования. Поскольку конкретные лекарственные препараты неоднозначно взаимодействуют с другими лекарственными препаратами, создание таких ресурсов и их практическое применение вызывает определенные трудности. Принималось во внимание, что информация из интернет-источников может быть действенным источником для фармаконадзора, фармацевтических компаний для коррекции применения лекарственных средств. Таким образом, корпус создавался для задачи автоматического обнаружения сложной информации, прежде всего о взаимодействии между лекарственными средствами, заболеваниями и побочными эффектами. Созданный нами корпус представляет совокупность текстов отзывов пациентов о применении лекарственных препаратов различных фармакотерапевтических групп для применения интеллектуальных методов машинного обучения. Данные в нашем исследовании получены с сайта “Отзовик”, который имеет раздел, предназначенный для выражения пациентами своих оценочных суждений о лекарствах. Пользователи заполняют предоставляемую форму, содержащую такие поля, как сведения о конкретном препарате с указанием причины приема лекарственного препарата, способ введения, эффективность, сведения о нежелательных действиях, сведения о заболевании. Пользователю предлагается выразить общую удовлетворенность препаратом в виде рейтинга, что интерпретируется нами, как тональность отзыва, представленного в свободной форме. Отзывы написаны на русском языке и не следуют формальным правилам грамматики, могут присутствовать просторечные обороты отдельных регионов, как России, так и стран ближнего зарубежья. Количество отзывов (исходных данных) составило 2 800, средняя длина отзыва составила 1807.6 символов. Аннотации были выполнены людьми с медицинским образованием. Разметка проводилась несколько раз, в том числе перекрестно разными аннотаторами с последующим просмотром и принятием решения экспертом специалистом-провизором. Корпус был аннотирован для выделения атрибутов лекарственных препаратов (названия лекарственного препарата, виды форм, частота применения, побочные эффекты, дозировка), заболеваний, том числе их симптомов, нежелательных реакций от определенного препарата. Для создания корпуса была сформирована методика разметки текстовых отзывов о лекарственных препаратах, учитывающая комплексный формат аннотируемых сущностей, настроена платформа для разметки отзывов с привлечением нескольких разметчиков, а также проведена разметка 2 800 отзывов с выделением более 32 тыс. сущностей разного типа. На основе созданного размеченного корпуса пользовательских текстов были проведены эксперименты по оценке точностей извлечения сущностей верхнего уровня на подчасти созданного корпуса. Для экспериментов выбрана топология сети, формирующая векторные представления слов на основе свёртки по символам, закодированным обучаемыми векторами, двунаправленного LSTM слоя (BiLSTM), кодирующего слова предложения, и выходного полносвязного слоя с функцией активации Softmax, значения которого означают вероятность принадлежности токена к одному из классов (или соответствие каждой метки токену). В ходе экспериментальных исследований выбрана модель векторного представлений слов размерностью 300, обученная на отзывах о больницах. Для обучения модели была собрана коллекция доступных в сети Интернет текстов медицинской направленности на русском языке (743 680 отзывов). Проведенные эксперименты показали, что добавление признаков тональных словарей и психолингвистических маркеров также позволяет увеличить точность в среднем на 2%. Использование комбинации признаков тональных словарей, маркеров и предобученной модели векторного представления слов, обученной на отзывах о больницах, в рамках используемой топологии нейросети позволяет достигнуть лучшей по сравнению с остальными комбинациями признаков точности классификации токенов, равной 50%, что на 3.5% выше, чем при использовании модели на базе CRF (точность оценивается как среднее значение по метрике macro-averaged f1-score по 5 независимым разбиениях множества 400 размеченных отзывов). Во второй год проекта планируется продолжить эксперименты с моделями распознавания сущностей медицинской тематики на созданном корпусе размеченных русскоязычных текстов, подготовить и опубликовать статью по итогам экспериментов. II. В направлении "разрешение кореференции" был отобран ряд работ, демонстрирующих современное состояние исследований по решению задачи кореференции. Анализ показал, что активное развитие методов автоматического разрешения кореферентных связей началось в 2012 году в рамках конференции CoNLL-2012. Для русского языка существует несколько корпусов текстов с разметкой кореферентных связей, однако они сравнительно небольшие, и между публикациями с их упоминаниями отсутствует согласованность в оценках результатов и способах разбиения корпуса на тестовые и тренировочные подмножества. Также стоит отметить, что для русского языка применению нейросетевых алгоритмов для решения этой задачи уделяется значительно меньше внимания, отчасти это связано с малым количеством размеченных данных. Вышеприведенные факты позволяют объяснить опубликованные в литературе низкие значения качества решения этой задачи. Из рассмотренных иностранных работ наибольший интерес представляет подход, описанный авторами из Университета Вашингтона в работе [Lee K., He L., Zettlemoyer L. Higher-order Coreference Resolution with Coarse-to-fine Inference //arXiv preprint arXiv:1804.05392. – 2018. https://arxiv.org/pdf/1804.05392.pdf], на основе глубокого обучения, позволивший получить лучшие результаты на корпусе CoNLL-2012. Этот подход и описанная в упомянутой работе нейросетевая модель были взяты нами за основу для развития метода разрешения кореференции и снятия омонимии. Подход был адаптирован под русский язык за счёт замены предобученных векторных представлений слов, а также используемой модели ELMo для английского языка на модель для русского языка. Сам подход был модифицирован за счет создания ансамбля нейросетевых моделей с дополнительной настройкой программных элементов для правильного учета ответов независимых моделей в его составе. Так как в ходе модели происходит многократное отсеивание входных примеров, разработанный ансамбль подразумевает усреднение оценок на всех этапах работы модели, а не только выходных значений. Объединение моделей проводилось на каждом этапе, когда они выдавали оценки, по которым производится отсеивание кандидатов на проведение кореферентной связи. Оценки от всех моделей суммируются и обратно распространяется их сумма. Таким образом, на каждом этапе модели отсеивают одинаковые варианты связей. На базе созданного подхода был проведен ряд экспериментов на русскоязычном корпусе ruCor [http://rucoref.maimbava.net/]. Для обучения использовалась перекрестная валидация по 10 разбиениям. Для реализации ансамбля было независимо обучено 4 модели, каждая из которых начинала со случайно инициализированными весами. По итогам экспериментов была достигнута средняя точность по фолдам: 64.68% по метрике F1_avg и стандартное отклонение 3.39% (F1_avg рассчитывается как 100%*(MUC_F1 + B^3_F1 + CEAFe_F1/3)). Также было выяснено следующее: ансамбль из двух и более моделей позволяет улучшить средний результат на 2%. При этом наибольший вклад в точность вносит использование ELMo модели (без нее точность уменьшается более чем на 10%). Среди предобученных моделей векторных представлений слов лучшую прибавку показывает модель Fasttext, обученная на русской wikipedia и lenta.ru (без этой модели точность уменьшается более чем на 2%). Полученные точности превосходят более чем на 25% опубликованные результаты для этого корпуса. Таким образом, полученные точности на текущий момент являются лучшими на сегодняшний день для русского языка. Результат исследования планируется опубликовать на втором году выполнения работ по проекту после проведения дополнительных сравнительных экспериментов. III. В направлении "нормализация медицинских концептов" проведено исследование моделей глубокого обучения для установления соответствия высказываний и медицинских понятий. В классической формулировке задача снятия омонимии сводится к различению разных смыслов одного термина, либо идентичных форм разных терминов. В случае текстов медицинской направленности снятие омонимии выглядит иначе, а именно, различные состояния могут описываться сходным образом (например, “болит живот” для состояний “гастрит” и “пищевое расстройство”); эта задача носит название нормализации медицинских концептов. В рамках первого года проекта решение этой задачи происходило на англоязычных и франкоязычном корпусах. Был рассмотрен подход, основанный на нейронной сети архитектуры кодировщик-декодировщик (encoder-decoder model) с внедрением дополнительных семантических признаков. Были исследованы различные архитектуры рекуррентных нейронных сетей в качестве подсетей архитектуры кодировщика-декодировщика. Было показано, что сети, содержащие в качестве кодирующей сети двунаправленную GRU сеть, а в качестве декодирующей сети - однонаправленную LSTM сеть, достигают наилучших показателей: точность - 90.4%, полнота - 82.3%, F-мера - 86.1%. Были проведены исследования с различными векторными представлениями слов и показано преимущество использования векторов, полученных на коллекции медицинских текстов PubMed. Также был проведен анализ качества предложенных моделей для французского языка. Анализ установил, что подходы, использованные для английского языка переносятся на французский с потерей качества порядка 10% по F-мере, связанной в основном с необходимостью предобработки французского языка. Были исследованы рекуррентные и сверточные нейронные сети в совокупности с семантическими признаками применительно к задаче нормализации выражений на естественном языке к медицинским терминам. Рассмотренные модели использовали два различных способа представления текста на естественном языке в векторном виде. Первый основывался на глубоких нейронных сетях, в том числе были использованы сверточная нейронная сеть, LSTM сеть, GRU сеть, а также варианты LSTM и GRU сетей с механизмом внимания. Второй способ представления основывался на семантической близости между исходным выражением и медицинскими понятиями из онтологии UMLS. При этом семантическая близость считалась как косинусное расстояние между TF-IDF или word2vec представлениями медицинских концептов и исходным выражением. Таким образом, каждый элемент полученного вектора показывал степень близости выражения на естественном языке к концептам из медицинской онтологии UMLS. На основе полученных векторных представлений производилась классификация к соответствующему медицинскому термину. Проделанный в работе анализ установил, что модели, построенные на основе обоих представлений, превосходят другие модели на 3.5% показателю F-меры. Качество описанных моделей оценивалось на общепринятом для данной задачи наборе данных CADEC. Также на основе корпуса CADEC был предложен новый метод разбиения для скользящего контроля с минимальными пересечениями между тренировочными и тестовыми выборками. Предложенный подход позволяет более точно оценить качество исследуемых моделей на данных, не присутствовавших в обучающей выборке. Разработанные методы имеют высокие показатели F-меры на данном наборе данных: 85.7% и 70.05% F-меры на исходном и на предложенном разбиениях соответственно. Полученные результаты превосходят существующие работы на 4-5% по F-мере. IV. В классической задаче анализа тональности подразумевается, что классификация тональности проводится на три класса: позитивный, нейтральный и негативный. В медицинской тематике формулировка тональности носит более сложный характер. Под эксплицитными оценками подразумеваются объекты мнения пользователя (аспекты), связанные непосредственно со здоровьем. Побочные эффекты лекарственных препаратов являются негативными аспектами, при этом непосредственно заболевания и симптомы являются нейтральными аспектами, а указания на улучшения состояния здоровья, в свою очередь, - аспектами с позитивной тональностью. Например, в предложении: “после приема второй таблетки Амиксина начался жуткий зуд, а ближе к вечеру все тело покрылось красными пятнами” выражения “зуд” и “тело покрылось красными пятнами” являются эксплицитными оценками сущности “Амиксин”, при этом их оценка отрицательная. В предложении “Энцефабол переносится прекрасно, улучшается память и проходят головные боли” эксплицитные оценки “переносится прекрасно”, “улучшается память” и “проходят головные боли” характеризуют “Энцефабол” положительно. В качестве моделей для решения данной задачи использовались разновидности рекуррентных нейронных сетей - сети с короткой долгосрочной памятью (LSTM). Исследования были начаты с простых моделей, использующих только LSTM, далее архитектуры расширялись механизмами внимания и дополнительной памяти. Эксперименты по оценке эффективности методов классификации проводились на четырех существующих англоязычных корпусах: CADEC, Твиттер, MADE, Twimed и одном русскоязычном корпусе отзывов пользователей с форума Отзовик. Корпус CADEC состоит из размеченных отзывов пользователей о лекарственных препаратах с форума askapatient.com. Корпус MADE состоит из обезличенных записей электронных карточек пациентов, больных раком. Корпус Twimed состоит из двух частей: твитов пользователей и текстов статей с ресурса PubMed. Корпус Твиттер содержит твиты пользователей на тему здоровья. Проведенные эксперименты показывают, что модель с интерактивным вниманием IAN показывает более высокое качество классификации по сравнению с базовым методом на основе классического машинного обучения (SVM с рядом признаков) и остальных представленных архитектур нейронных сетей на большинстве корпусов. Результаты работы IAN (F-мера): CADEC - 81.5%, Twitter - 79.4%, MADE - 78.6, Twimed-Twitter - 81.9%, Twimed-Pubmed - 87.4%, Отзовик - 79.3%. На корпусе Твиттер лучшие результаты показала модель RAM - 83.4%. Наибольший прирост в результатах по сравнению с базовой моделью был достигнут на корпусах Twitter (+8.5%), Twimed-Twitter (+6.1%) и Twimed-Pubmed (+4%). Дополнительно была оценена эффективность модели интерактивного внимания, обученной на всех корпусах одновременно. Этот эксперимент не привел к улучшению качества классификации. Результаты исследований опубликованы в одной журнальной статье (индексируется в Web of Science, Scopus - первая квартиль), трех статьях в трудах конференций (Web of Science, Scopus), статье в журнале из списка ВАК. Информационные ресурсы в сети Интернет (url-адреса), посвященные проекту: https://pharmvestnik.ru/articles/Pacientskie-laiki.html https://iz.ru/779124/mariia-nediuk/neironnuiu-set-obuchili-raspoznavat-zhaloby-na-lekarstva-v-sotcsetiakh https://www.if24.ru/dobryj-doktor-tsukerberg-kak-sotsialnye-seti-pomogayut-meditsine/

 

Публикации

1. Алимова И.С., Соловьев В.Д. Interactive attention network for adverse drug reaction classification Communications in Computer and Information Science: Proceedings of the 7th International Conference Artificial Intelligence and Natural Language, AINL 2018, Volume 930, 2018, Pages 185-196 (год публикации - 2018) https://doi.org/10.1007/978-3-030-01204-5_18

2. Алимова И.С., Тутубалина Е.В. Сравнительный анализ нейронных сетей в задаче классификации побочных эффектов на уровне сущностей в англоязычных текстах Труды Института системного программирования РАН, том 30, выпуск 5, 2018 (год публикации - 2018)

3. Мифтахутдинов З.Ш., Тутубалина Е.В. Leveraging deep neural networks and semantic similarity measures for medical concept normalisation in user reviews Komp'juternaja Lingvistika i Intellektual'nye Tehnologii: Proccedings of the 2018 International Conference on Computational Linguistics and Intellectual Technologies, Dialogue 2018, Volume 2018-May, Issue 17, 2018, Pages 469-489 (год публикации - 2018)

4. Мифтахутдинов З.Ш., Тутубалина Е.В. Deep learning for ICD coding: Looking for medical concepts in clinical documents in english and in French Lecture Notes in Computer Science: Proccedings of the 9th International Conference of the CLEF Association, CLEF 2018, Volume 11018 LNCS, 2018, Pages 203-215 (год публикации - 2018) https://doi.org/10.1007/978-3-319-98932-7_19

5. Тутубалина Е.В., Мифтахутдинов З.Ш., Николенко С.И., Малых В.Е. Medical concept normalization in social media posts with recurrent neural networks Journal of Biomedical Informatics, Том: 84 Стр.: 93-102 DOI: 10.1016/j.jbi.2018.06.006 (год публикации - 2018) https://doi.org/10.1016/j.jbi.2018.06.006

6. - Пациентские лайки Газета "Фармацевтический вестник", выпуск №33 (946), 2018 (год публикации - )

7. - Нейронную сеть обучили распознавать жалобы на лекарства в соцсетях МИЦ «Известия», - (год публикации - )

8. - Добрый доктор Цукерберг: как социальные сети помогают медицине Деловой журнал «Инвест-Форсайт», - (год публикации - )


Аннотация результатов, полученных в 2019 году
Проведены исследования по анализу пользовательских текстов медицинской направленности в следующих задачах: I. Извлечение информации из коллекций на русском и английском языках; II. Нормализация медицинских концептов; III. Категоризация мнений и сущностей медицинской направленности. I. Извлечение информации из коллекций на русском и английском языках. В первый год проекта (2018 г.) были разработаны одноязычные методы извлечения именованных сущностей медицинской направленности. Очевидный недостаток одноязычных методов заключается в том, что их использование затруднительно, когда размеченных данных очень мало. Поэтому важным направлением исследований во второй год проекта (2019 г.) стало применение современных подходов на основе межъязыковых моделей и переноса знаний через предобучение моделей (transfer learning), для улучшения качества извлечения упоминаний лекарств и болезней из создаваемого корпуса на русском языке. Как правило, для переноса знаний используются взаимоувязанные задачи. Одна из задач является целевой (target task) и представляет непосредственный интерес, а вторая основной (source task) и используется для получения первоначальной модели (которая затем используется для последующего обучения на целевой задаче). Межъязыковые подходы позволяют обучать модели извлечения информации на одном языке и применять их к другому (целевому) языку. Для улучшения качества целевой модели может использоваться небольшое количество размеченных примеров на целевом языке. В рамках проводимых исследований были изучены способы переноса знаний на 2 корпусах на русском языке и 2 корпусах на английском языке: (i) n2c2 - корпус клинических текстов на английском языке; (ii) CADEC - корпус пользовательских отзывов на английском языке; (iii) корпус клинических текстов на русском языке; (iv) размеченный в рамках данного проекта корпус пользовательских текстов на русском языке. Для проведения экспериментов использовалась межъязыковая модель архитектуры BERT [Devlin J. et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding //Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). – 2019. – С. 4171-4186]. В частности, мы используем следующий вариант данной архитектуры - Multi-BERT (BERT-base, Multilingual Cased). Эксперименты проводились в условиях ограниченного количества данных на целевой задаче. Для этого данные для обучения целевой задачи разбивались на подвыборки размерности от 50 до 2000 предложений с шагом в 50. Валидационный набор данных оставался неизменным. Для выявления эффективности переноса знаний модель была обучена на каждой подвыборке: (i) без предобучения; (ii) с предобучением на одном из других наборов данных и последующим обучении на целевом наборе. В общей сложности было обучено 720 моделей. Подсчет точности, полноты, и F-меры производился по стратегии полного совпадения (exact matching). Эксперименты показали, что в случае совпадения характеристики текстов двух корпусов (язык или тип текста) можно достичь сравнимых показателей качества используя лишь 10-25% объема обучающей выборки. В условиях отсутствия данных для целевой задачи, можно достичь приемлемых результатов при извлечении сущностей типа Drug. В частности, модель обученная на корпусе n2c2 достигает 77,08% F-меры на корпусе CADEC, тогда как модель обученная на данных целевой задачи достигает 84,88% F-меры. При подробном рассмотрении полученных результатов на русскоязычном корпусе можно наблюдать следующие результаты: модель на основе архитектуры рекуррентной нейронной сети с короткой долгосрочной памятью (LSTM) и условных случайных полей (CRF) и с одноязычными векторными представлениями слов достигает 21,43% и 38,98% F-меры точному совпадению для сущностей типа Disease и Drug соответственно, межъязыковая модель MultiBERT достигает 49,35% и 60,45% F-меры, языковая модель MultiBERT, обученная с использованием технологии переноса знаний, достигает 50,43% и 62,05% F-меры. Следует отметить, что технология переноса знаний показывает прирост в 1,1% F-меры для сущностей типа Disease и 1,6% F-меры для сущностей типа Drug, применение предобученной языковой модели дает существенный прирост по метрикам качества: 27,92% F-меры и 21,47% F-меры для сущностей Disease и Drug соответственно. Была расширена коллекция текстов на русском языке, состоящая из 943.112 отзывов пользователей о лекарственных препаратах и медицинских учреждениях, размещенных в сети Интернет. Данная коллекция увеличилась на 26.81% по отношению к коллекции, собранной в первый год проекта (743.680 отзывов). Дополнительно была собрано 466.199 отзывов пользователей с сайта Отзовик категории “Косметика ухаживающая”. Была продолжена работа по созданию и тестированию автоматической системы по извлечению именованных сущностей из англоязычных коротких сообщений пользователей о лекарствах, которая показала наилучший результат в двух дорожках по итогам открытых тестирований Social Media Mining for Health Applications (#SMM4H) Shared Tasks 2019. Разработанная модель архитектуры BERT с интегрированием признаков на основе словарей достигла 65,8% F-меры при частичном совпадении и, таким образом, показала наилучший результат среди 9 команд в дорожке №2 по извлечению упоминаний о побочных лекарственных реакциях (ADR). При полном совпадении разработанная нами модель показала 46,4% F-меры. В рамкам дорожки №3 (Task 3) разработанная модель, извлекающая упоминания ADR, а затем сопоставляющая эти объекты с медицинскими концептами из MedDRA, показала наилучшие результаты среди всех команд, достигнув 43,2% F-меры в частичном совпадении. Результаты работы описаны в работе “KFU NLP Team at SMM4H 2019 Tasks: Want to Extract Adverse Drugs Reactions from Tweets? BERT to The Rescue”, опубликованной в трудах симпозиума SMM4H в рамках конференции ACL 2019, и представлены в виде приглашенных докладов на SMM4H Workshop 2019 и на международной конференции по компьютерной биологии ISMB/ECCB 2019. II. Нормализация медицинских концептов. Во второй год проекта были продолжены исследования моделей глубокого обучения для установления соответствия между биомедицинскими сущностями и медицинскими понятиями в базах знаний; эта задача носит название нормализации медицинских концептов (medical concept normalization). В работе “Deep Neural Models for Medical Concept Normalization in User-Generated Texts” были исследованы следующие архитектуры глубоких нейронных сетей применительно к задаче нормализации: (i) многослойная рекуррентная нейронная сеть на основе архитектуры GRU с механизмом внимания и распределенных представлениях слов; (ii) аналогичная пункту (i) модель, однако в качестве распределенных представлений слов были взяты контекстные векторные представления из предобученной языковой модели ELMo [Peters M. et al. Deep Contextualized Word Representations //Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). – 2018. – С. 2227-2237.]; (iii) BERT. Все модели были рассмотрены в двух вариациях: (i) с использованием дополнительных семантических признаков и (ii) без использования указанных признаков. Признаки основывались на семантической близости между исходным выражением и медицинскими понятиями из онтологии UMLS. Оценка предложенных методов проводилась на трех различных корпусах собранных из социальных медиа ресурсов: PsyTar, CADEC, SMM4H 2017. Для оценки качества моделей была взята метрика точности (accuracy). Рекуррентные нейронные сети с использованием механизма внимания и векторных представлений word2vec на корпусе CADEC достигают 70,05% точности в случае использования вектора семантических признаков. Модель, не использующая семантические признаки, достигает 66,56% точности. Рекуррентная сеть на основе контекстных векторных представлений слов ELMo на корпусе CADEC имеет 71,68% точности в варианте без использованием семантических признаков и 74,70% точности с использованием семантических признаков. Модель архитектуры BERT достигла 79,83% c семантическими признаками и 79,25% без означенных признаков. Следовательно, основываясь на полученных результатах, можно сделать вывод: чем лучше лежащая в основе архитектуры языковая модель, тем выше качество классификации и тем меньше необходимость в использовании дополнительных признаков. Результаты работы были опубликованы в рамках секции студенческих работ в трудах крупнейшей международной конференции по компьютерной лингвистике ACL 2019. Во второй год проекта был подготовлен второй слой разметки по сопоставлению сущностей с концептами медицинской тематики. Было проведены две различные разметки: 1) разметка с целью установления соответствия между сущностями, выделенными в 1 год проекта, и концептами из Википедии; 2) разметка с целью установления соответствия между названием продуктов, которые указали пользователи, и Государственным реестром лекарственных средств (ГРЛС, http://grls.rosminzdrav.ru). Было установлено соответствие между 1.903 неуникальными сущностями и 268 идентификаторами страниц Википедии. В третий год проекта планируется продолжить данное направление работ по завершению разметки. Была проведена разметка с целью установления соответствия между названиями продуктов из отзывов категории "Антибактериальные и противогрибковые препараты" с сайта Otzovik и ГРЛС. Авторы сайта Отзовик заполняют название продукта в свободной форме. Было установлено, что 373 (57,5%) из 649 уникальных названий имеют соответствие в ГРЛС и принадлежат к одной из групп классификации АТХ (J0, D0, G0, A0). Таким образом, потребители часто понимают под лекарственными средствами товары аптечного ассортимента. III. Категоризация мнений и сущностей медицинской направленности. В работе “Detecting Adverse Drug Reactions from Biomedical Texts With Neural Networks” было продолжено исследование моделей глубокого обучения с механизмами внимания для задачи классификации биомедицинских сущностей. В этом году были исследованы архитектуры нейронных сетей с различными видами механизмов внимания в сравнении с моделью с интерактивным вниманием (Interactive Attention Neural Network; IAN). В качестве моделей для решения задачи классификации биомедицинских сущностей были выбраны 3 архитектуры нейронных сетей: (i) модель “Attention-over-Attention” (AOA) [Huang et al., 2019; https://link.springer.com/chapter/10.1007/978-3-319-93372-6_22]; (ii) модель “Attentional Encoder Network” (AEN) [Song Y. et al., 2019; https://link.springer.com/chapter/10.1007/978-3-030-30490-4_9]; (iii) модель “Attention-based LSTM with Aspect Embedding LSTM” (ATAE-LSTM) [Wang Y. et al., 2016; https://www.aclweb.org/anthology/D16-1058/]. Эксперименты по оценке эффективности методов классификации проводились на четырех англоязычных корпусах. Проведенные эксперименты показывают, что модель с интерактивным вниманием IAN показывает более высокое качество классификации по сравнению с остальными представленными архитектурами нейронных сетей на всех корпусах. Результаты работы IAN (F-мера): CADEC - 81,5%, Twitter - 79,4%, PsyTAR - 81,7%, Twimed-Twitter - 81,9%, Twimed-Pubmed - 87,4%. Вторые по качеству результаты продемонстрировала модель ATAE-LSTM CADEC - 78,6%, Twitter - 70,2%, PsyTAR - 80,7%, Twimed-Twitter - 73,5%, Twimed-Pubmed - 80,0%. Анализ результатов показал, что увеличение количества слоев внимания в модели не приводит к улучшению результатов в задаче классификации биомедицинских сущностей. Кроме того, добавление векторного представления сущности к векторам слов контекста также не дает преимущества. Результаты работы были опубликованы в рамках секции студенческих работ в трудах ACL 2019. Было исследовано влияние различных типов аспектных терминов на удовлетворенность пользователей лекарственными препаратами. В качестве критерия удовлетворенности рассматривался рейтинг продукта по пятибальной шкале, выставляемый автором отзыва. Эксперименты проводились на корпусе PsyTAR, состоящем из отзывов пользователей об антидепрессантах с сайта askapatient.com. Для исследования были выбраны четыре вида аспектных терминов являющихся биомедицинскими сущностями: показания к применению (DI), побочный эффект (ADR), синдром отмены (WD), симптомы болезни (SSI). В качестве модели использовалась модель градиентного бустинга LightGBM. Модели оценивались средней квадратичной ошибкой (mean squared error; MSE). Эксперименты показали, что для задачи предсказания рейтинга модель, обученная на текстах с выделенными биомедицинскими сущностями, показывает на 0,75 MSE меньше, чем модель, обученная на исходных текстах авторов. Результаты моделей, обученных только на словах биомедицинских сущностях показывают в среднем на 0,61 MSE больше, чем модель, обученная на исходном тексте отзыва. Это приводит к выводу, что только биомедицинских сущностей недостаточно для представления отзывов, так как текст отзыва может содержать тональные слова, которые играют центральную роль в задачах анализа мнений. Было также выявлено, что тип сущности ADR влияет на предсказание рейтинга в большей степени, чем остальные типы сущностей. Анализ результатов показал, что побочные эффекты, оказывающие влияние на социальную жизнь, такие как «не были в состоянии работать», «не способен функционировать», «не могли встать с постели» связаны с низкими оценками отзывов, в то время как отзывы с высоким рейтингом характеризуются физиологическими побочными эффектами, такими как «усталость», «сухость во рту», «нарушенный сон». Результаты работы были описаны в статье “Biomedical Entities Impact on Rating Prediction for Psychiatric Drugs” и представлены в виде устного доклада на 8-й международной конференции по анализу текстов, сетей и изображений AIST 2019. Был проведен анализ собранных пользовательских отзывов на лекарства с сайта Otzovik c помощью трех тематических моделей: (i) LDA [Blei D. M et al., 2003; http://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf]; (ii) ARTM [Vorontsov K., Potapenko A, 2015; https://link.springer.com/article/10.1007/s10994-014-5476-6]; (iii) нейросетевой модели извлечения на основе внимания ABAE [He R. et al., 2017; https://www.aclweb.org/anthology/P17-1036/]. Были построены модели с числом тем от 5 до 85. Была произведена оценка качества построенных моделей. Были рассмотрены три метрики оценки полученных моделей: (i) среднее расстояние между word2vec векторами слов одной темы [Nikolenko, 2016; https://dl.acm.org/citation.cfm?id=2911451.2914720], (ii) метрика когерентности Normalized pairwise mutual information (NPMI) и (iii) доля уникальных слов (diversity). Вектора слов обучены на НКРЯ с размерностью d=300. Частоты для NPMI подсчитывались на основе НКРЯ. Результаты по всем метрикам показали, что ABAE превосходит LDA и ARTM по качеству тем. Дополнительно были проведены эксперименты по оценке качества тем, полученных с помощью разных модификаций ABAE. Модификации ABAE заменяют механизм само-внимания (self-attention) на его аналоги: векторные представления, описывающие порядок слов (positional encoding), рекуррентную нейронную сеть, верточную нейронную сеть, усреднение входных векторов. Результаты экспериментов на русскоязычных коллекциях отзывов о лекарственных средствах и больницах с сайта Отзовик показывают, что качество тем у исходной ABAE с само-вниманием схоже со всеми модификациями ABAE. Результаты экспериментов различных модификаций ABAE на отзывах о лекарствах были описаны в статье “Wear the Right Head: Comparing Strategies for Encoding Sentences for Aspect Extraction” и представлены в виде устного доклада на 8-й международной конференции AIST 2019. Результаты исследований по проекту были опубликованы в 8 научных публикациях и представлены в виде 15 докладов на научных мероприятиях.

 

Публикации

1. Алимова А.С., Тутубалина Е.В. Detecting Adverse Drug Reactions from Biomedical Texts With Neural Networks Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics: Student Research Workshop, С. 415-421 (год публикации - 2019) https://doi.org/10.18653/v1/P19-2058

2. Алимова И.С., Тутубалина Е.В. Entity-Level Classification of Adverse Drug Reaction: A Comparative Analysis of Neural Network Models Programming and Computer Software, Vol. 45, No. 8, 2019 (год публикации - 2019)

3. Алимова И.С., Тутубалина Е.В., Соловьев В.Д. Biomedical Entities Impact on Rating Prediction for Psychiatric Drugs Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), LNCS 11832, стр. 85-92 (год публикации - 2019) https://doi.org/10.1007/978-3-030-37334-4_9

4. В. Малых, А. Алексеев, С. Николенко, Е. Тутубалина, И. Шенбин Wear the Right Head: Comparing Strategies for Encoding Sentences for Aspect Extraction Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), LNCS 11832, стр. 155-166 (год публикации - 2019) https://doi.org/10.1007/978-3-030-37334-4_15

5. Мифтахутдинов З.Ш., Алимова И.С., Тутубалина Е.В. KFU NLP Team at SMM4H 2019 Tasks: Want to Extract Adverse Drugs Reactions from Tweets? BERT to The Rescue Proceedings of the Fourth Social Media Mining for Health Applications (# SMM4H) Workshop & Shared Task, С. 52-57 (год публикации - 2019)

6. Мифтахутдинов З.Ш., Тутубалина Е.В. Deep Neural Models for Medical Concept Normalization in User-Generated Texts Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics: Student Research Workshop., С. 393-399 (год публикации - 2019) https://doi.org/10.18653/v1/P19-2055

7. Нугманов Р.И., Алимова И.С., Тутубалина Е.В. Adverse drug reactions identification in social media posts and electronic health records with neural networks EUROPEAN JOURNAL OF CLINICAL INVESTIGATION., Том: 49 Стр.: 116-117 (год публикации - 2019)

8. Нугманов Р.И., Мифтахутдинов З.Ш., Тутубалина Е.В. Addressing medical coding of free-text clinical records in English with deep learning EUROPEAN JOURNAL OF CLINICAL INVESTIGATION, Том: 49 Стр.: 117-117 (год публикации - 2019)


Аннотация результатов, полученных в 2020 году
Проект “Математические модели и инструментарий для анализа социально значимой информации в русскоязычном сегменте Интернета” посвящён нескольким важным направлениям исследований в области обработки пользовательских текстов и извлечения информации из отзывов и коротких сообщений, посвященных лекарственным средствам и реакциям на них. Проведены исследования в следующих направлениях: I. Извлечение информации из коллекций на русском и английском языках; II. Нормализация медицинских концептов; III. Категоризация мнений и сущностей медицинской направленности. В течение третьего года проекта были получены важные результаты во всех заявленных направлениях. I. Подготовлен и опубликован новый размеченный корпус твитов на русском языке, проведена дорожка по классификации коротких сообщений Social Media Mining for Health Applications (#SMM4H) 2020 Shared Task 2. SMM4H является крупнейшим соревнованием по разработке автоматических методов сбора, извлечения, представления, анализа данных социальных сетей по теме здоровья. В этом году впервые на соревновании была представлена дорожка с данными на русском языке. Корпус состоит из твитов о здоровье на русском языке. Каждый твит размечен на предмет того, содержит ли сообщение о неблагоприятном побочном эффекте, возникающем при приеме лекарственного препарата. Корпус содержит твиты об антидепрессантах, противовирусных, бронхорасширяющих, противодиарейных препаратах и лекарственных средствах других терапевтических групп. Всего в корпусе содержится 9515 твитов, 7612 из которых были добавлены в обучающую выборку, 1903 в контрольную выборку. В обучающей выборке 666 (8.7%) твитов с побочными эффектами и 6946 без упоминаний побочных эффектов (91.3%). Контрольный набор содержит 166 твитов с побочными эффектами. Результаты проведения дорожки были представлены в рамках симпозиума #SMM4H 2020 28-й международной конференции по компьютерной лингвистики COLING 2020 (ранг A по рейтингу CORE) и опубликованы в трудах симпозиума в статье “Overview of the fifth Social Media Mining for Health Applications (#SMM4H) Shared Tasks at COLING 2020” (https://www.aclweb.org/anthology/2020.smm4h-1.4.pdf). В этом году была финализирована разметка созданного в рамках проекта корпуса отзывов Russian Drug Reaction Corpus (RuDReС). Корпус RuDReC состоит из двух частей: размеченной и неразмеченной. Неразмеченная часть корпуса состоит из 1.4 миллиона отзывов. Размеченная часть корпуса состоит из 500 отзывов пользователей о лекарственных препаратах из четырех фармацевтических групп. Разметка в корпусе проводилась на уровне сущностей и предложений. UMLS используется в качестве базы знаний для установления соответствия между сущностями и медицинскими концептами. Корпус представлен в открытом доступе с кодом по обработке текстов, обучению моделей и их использованию для получения предсказаний (https://github.com/cimm-kzn/RuDReC). По результатам подготовлена статья “The Russian Drug Reaction Corpus and Neural Models for Drug Reactions and Effectiveness Detection in User Reviews”, опубликованная в журнале Bioinformatics (Q1, Impact Factor 5.6). Обучены три языковые модели: 1) RuDR-BERT, 2) EnDR-BERT, 3) EnRuDR-BERT. При этом первая модель получена исключительно на текстах корпуса RuDReC, для обучения второй использовался корпус англоязычных отзывов из статьи (Tutubalina et al., 2017), модель EnRuDR-BERT обучена на обоих корпусах. Во всех случаях модель была инициализирована весами мультиязычной модели Multi-BERT. Полученные модели использовались для решения различных задач извлечения информации из пользовательских текстов медицинской направленности и показали высокую эффективность на корпусах RuDReC и SMM4H 2020 Task 2 & 3. Модели выложены в общий доступ и находятся по адресу: https://huggingface.co/cimm-kzn. На момент написания отчета (01.12.2020) количество скачиваний трех моделей составляет порядка 500 раз в месяц. II В работе “KFU NLP Team at SMM4H 2020 Tasks: Cross-lingual Transfer Learning with Pretrained Language Models for Drug Reactions” описывается система из двух моделей для задачи извлечения медицинских концептов из пользовательских текстов в рамках соревнования SMM4H 2020. Данная задача включает в себя две подзадачи: извлечение именованных сущностей и нормализация медицинских концептов. Предложенная система показала наилучшие результаты на SMM4H 2020 Task 3. Результаты опубликованы в трудах симпозиума Social Media Mining for Health (SMM4H) и представлены в докладе на SMM4H 2020 (https://www.aclweb.org/anthology/2020.smm4h-1.8.pdf). Исследована переносимость знаний между различными системами кодирования. Изучения данного аспекта представляет собой интерес, так как существует большое множество систем кодирования, но практически все из существующих корпусов содержат разметку только в одной из номенклатур. В рамках исследования использовались следующие наборы данных: (i) NCBI Disease (ii) BioCreative V CDR (iii) BioCreative II GN (iv) TAC 2017 ADR (v) SMM4H 2017 ADR. Подробное изучение перечисленных корпусов показало, что тренировочная и тестовая части сильно пересекаются между собой, к тому же в тестовой части содержится большое количество дублирующихся примеров. Поэтому для проведения экспериментов использовались тестовые наборы очищенные от дубликатов и примеров из тренировочного части данных. Для наборов TAC и SMM4H, содержащих побочные эффекты лекарств, модели BioSyn (Sung M. et al., 2020), обученные на четырех других корпусах, показывают существенное снижение производительности (точность падает на -10,2% и -33,1% соответственно) по сравнению с моделями, обученными в рамках того же домена. Полученные результаты опубликованы в статье “Fair Evaluation in Concept Normalization: a Large-scale Comparative Analysis for BERT-based Models” в трудах 28-ой международной конференции по компьютерной лингвистике COLING 2020 (ранг A по рейтингу CORE). III Разработана модель для категоризации побочных эффектов на основе удаленного обучения (distant supervision). Подход удаленного обучения направлен на дополнительное обучение модели на размеченном автоматически большом корпусе текстов. Для реализации поставленной задачи была подготовлена большая неразмеченная коллекция, состоящая из 113 835 отзывов о лекарственных препаратах с ресурса askapatient.com. Для обучения моделей использовался размеченный корпус отзывов об антидепрессантах PsyTAR. Оценка проводилась на размеченном корпусе CADEC, состоящем из отзывов о противовоспалительных и холестириноснижающих препаратах. В качестве модели использовалась сеть с интерактивным вниманием (Interactive attention neural network; IAN). Анализ результатов проведенных экспериментов позволяет сделать следующие выводы: (i) применение методики distant supervision дает прирост в результатах для задачи категоризации именованных сущностей о побочных эффектах в условиях, когда для обучения и оценки используются отзывы о лекарствах с разной терапевтической группой (+22.2% F-меры); (ii) для получения более высокого прироста в результатах автоматически размеченные данные необходимо фильтровать, в частности, использовать отзывы о тех же лекарственных препаратах, что и в оценочном корпусе. Были проанализированы отзывы о лекарственных препаратах из категории “сердечно-сосудистые средства”. Всего в корпусе было размечено 4047 отзывов о 530 лекарственных препаратах для лечения сердечно-сосудистых заболеваний. Согласно статистике, наиболее распространенными побочными эффектами оказались “повышенное артериальное давление” (C0497247) - 22%, “пониженное артериальное давление” (C0020649) - 13%, “головная боль” (C0042376) - 16% и “усталость” (C0392674) - 7%, что коррелирует с результатами существующих исследований о частоте возникновения побочных эффектов лекарственных препаратов терапевтической группы “сердечно-сосудистые” средства (Ferrari, 2016; Huffman and Stern, 2007; Teweleit et al., 2001). Анализ результатов показывает, что модель способна выделить сущности, которые описывают побочные эффекты, присутствующие в инструкции к препаратам. При этом словарный поиск из инструкции приведет к потере важных данных, так как пользователи используют термины, отличные от медицинских. Кроме того, разработанная модель также способна извлекать сущности, которые не указаны в инструкциях по применению. Таким образом, подтверждается эффективность и актуальность разработанных в проекте моделей и программных систем. Результаты исследований по проекту были представлены в виде 5 докладов на научных мероприятиях и опубликованы в 6 научных публикациях, включая публикации в журналах первой квартили и в трудах ведущих международных конференций: - в журнале Bioinformatics (Q1, Impact Factor 5.610), - в трудах конференции 42nd European Conference on Information Retrieval / ECIR 2020 (ранг A по рейтингу CORE), - в трудах конференции 28th International Conference on Computational Linguistics / COLING 2020 (ранг A по рейтингу CORE).

 

Публикации

1. Ари Кляйн, Ильсеяр Алимова, Иван Флорес, Арджун Магге, Зульфат Мифтахутдинов, Анн-Лиз Минард, Карен О’Коннор, Абид Саркер, Елена Тутубалина, Дэви Вайссенбахер, Грасиела Гонсалес-Эрнандес Overview of the Fifth Social Media Mining for Health Applications (#SMM4H) Shared Tasks at COLING 2020 Proceedings of the Fifth Social Media Mining for Health Applications Workshop & Shared Task, publisher - Association for Computational Linguistics, pages 27–36 (год публикации - 2020)

2. Ильсеяр Алимова, Елена Тутубалина Multiple features for clinical relation extraction: A machine learning approach Journal of Biomedical Informatics, Volume 103, 2020, pages 103382 (год публикации - 2020) https://doi.org/10.1016/j.jbi.2020.103382

3. Мифтахутдинов З.Ш., Алимова И.С., Тутубалина Е.В. On Biomedical Named Entity Recognition: Experiments in Interlingual Transfer for Clinical and Social Media Texts LNCS / Proceedings of the 42nd European Conference on IR Research, ECIR 2020, Volume 12036 LNCS, 2020, Pages 281-288 (год публикации - 2020) https://doi.org/10.1007/978-3-030-45442-5_35

4. Мифтахутдинов З.Ш., Сахновский А., Тутубалина Е.В. KFU NLP Team at SMM4H 2020 Tasks: Cross-lingual Transfer Learning with Pretrained Language Models for Drug Reactions Proceedings of the Fifth Social Media Mining for Health Applications Workshop & Shared Task, publisher - Association for Computational Linguistics, 2020, pages 51--56 (год публикации - 2020)

5. Тутубалина Е.В., Алимова И.С., Мифтахутдинов З.Ф., Сахновский А., Малых В.Е., Николенко С.И. The Russian Drug Reaction Corpus and Neural Models for Drug Reactions and Effectiveness Detection in User Reviews Bioinformatics, Access Publication Date: 28 July 2020, pp. 1–7 (год публикации - 2020) https://doi.org/10.1093/bioinformatics/btaa675

6. Тутубалина Е.В., Кадурин А., Мифтахутдинов З.Ф., Fair Evaluation in Concept Normalization: a Large-scale Comparative Analysis for BERT-based Models Proceedings of the 28th International Conference on Computational Linguistics, Association for Computational Linguistics, 2020, pages 6710–6716 (год публикации - 2020)


Возможность практического использования результатов
Работы, проведённые в рамках проекта, посвящены главным образом практическим, прикладным исследованиям по обработке текстов на естественном языке (natural language processing, NLP), которые могут иметь непосредственные применения для создания новых платформ по интеллектуальному анализу данных биомедицинской направленности, для разработки систем мониторинга эффективности лекарств, для выявления в тексте описанных лекарственных реакций и в других областях. Так, область создания корпусов, методов и моделей извлечения именованных сущностей медицинской направленности полностью мотивирована нуждами разработки систем мониторинга лекарств и парафармацевтических товаров на рынке. Чтобы выявить побочные эффекты, фармацевтические компании проводят длительные и дорогостоящие клинические испытания. Чтобы лекарство признали безопасным и выпустили на рынок, часто требуется несколько лет. Но даже этот длительный процесс не может выявить все возможные побочные эффекты, или, как их сейчас обычно называют в научной литературе, неблагоприятные побочные реакции (adverse drug reactions, ADR): организм каждого человека уникален, и создать репрезентативную группу всех возможных состояний пациентов и взаимодействия всех лекарственных препаратов невозможно. Но побочные эффекты всё же происходят, люди начинают жаловаться на них в соцсетях. Улучшая таким образом инструменты для обработки пользовательских комментариев о лекарствах и мониторинга неблагоприятных побочных реакций, мы можем помочь компаниям лучше контролировать выпускамые в широкий оборот препараты и таким образом улучшить жизнь большого числа людей. Создание моделей нормализации сущностей, т.е. моделей установления соотвествия между фразами пользователей о симптомах, лекарственных реакциях и формальными медицинскими терминами также мотивировано практически: люди в интернете редко пользуются медицинской терминологией, поэтому недостаточно просто запустить поиск по ключевым словам; нужно уметь «перевести» текст, написанный на повседневном языке, на «формальный медицинский язык» (например, нужно понимать, что «не мог уснуть всю ночь» означает «бессонницу»). Полученные в проекте результаты будут полезны при создании онлайн-сервисов по определению диагноза, где пользователь должен в свободной форме перечислить в сервисе симптомы, после чего система выделяет три наиболее вероятных причины недомогания. Таким образом, все проведённые исследования имеют значительную практическую ценность и могут быть непосредственно использованы в практических целях.