КАРТОЧКА ПРОЕКТА,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 18-11-00284

НазваниеМатематические модели и инструментарий для анализа социально значимой информации в русскоязычном сегменте Интернета

РуководительТутубалина Елена Викторовна, Кандидат физико-математических наук

Организация финансирования, регионфедеральное государственное автономное образовательное учреждение высшего образования "Казанский (Приволжский) федеральный университет", Республика Татарстан

Года выполнения при поддержке РНФ2018 - 2020

КонкурсКонкурс 2018 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами»

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-518 - Системы текстового поиска, обработки и анализа естественного языка

Ключевые словаизвлечение информации, автоматическая обработка текстов, машинное обучение, глубокое обучение, анализ мнений

Код ГРНТИ20.53.19


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Проект предусматривает создание комплексной системы моделей, методов, алгоритмов и программных средств для анализа русскоязычных текстов из открытых источников, в том числе из сети Интернет. В настоящее время накоплен огромный объем текстовой неструктурированной информации. Общедоступные тексты в явной или скрытой форме содержат обширный набор социально значимой информации. В особой степени это касается здравоохранения в целом, поскольку оно влияет на развитие человеческого потенциала, и сферы потребления и оценки населением лекарственных средств в частности. Следует отметить, что задача анализа в электронных источников информации в такой постановке до сих пор не ставилась и развитых инструментальных средств для её решения нет. Поэтому существует потребность в автоматическом анализе информации для оценки качества здравоохранения и лекарственного обеспечения населения. Специфика задачи подразумевает комплексный учёт тональной, эмотивной, тематической составляющей текста и его специализированной семантики. В настоящее время извлечение полезных знаний из текстов определенной предметной области осуществляется по большей части вручную или с помощью базовых методов машинного обучения. В рамках проекта ставится задача разработки новых моделей, методов и программных средств обработки текстов с целью создания инструментов и их комбинирования для решения прикладных задач в сфере здравоохранения. Новизна проекта состоит в том, что на его основе: 1) будет разработан комплекс новых или модифицированных алгоритмов, включающих: - методы глубокого обучения (deep learning) для синтаксического разбора предложения и выявления кореферентных выражений; - методы глубокого обучения для снятия омонимии (word sense disambiguation); - методы определения аспектных терминов и аспектных категорий; - методы глубокого обучения для выделения оценок, включая эксплицитные (с помощью оценочной лексики) и имплицитные (с использованием оценочных фактов); - методы выявления модификаторов полярности слов и выражений, основанные на распределенных представлениях и подходах к обработке композициональной семантики; - методы автоматического порождения оценочных словарей определенной предметной области, использующие нейтральные контрастные коллекции (в частности, корпус новостей) и тематические модели, включающие в себя переменные, связанные с тональностью слов; 2) будет создан инструмент (с открытым исходным кодом) для анализа социально значимой информации; важными компонентами системы будут модули лингвистического процессора (в частности, модули графематического, морфологического и синтаксического анализа) на основе глубоких нейронных сетей и семантического пространства представлений слов и символов. Результаты проекта могут быть применены для широкого круга задач, в частности, для: - оценки терапевтической эффективности биологически активных добавок и биологических лекарственных средств; - диагностики уровня качества медицинских услуг для своевременной компенсации нежелательных отклонений; - мониторинга сформированности профессиональных компетенций; - выявлении преобладающих категорий жалоб населения; - автоматического анализа рекламы лекарственных средств в специализированных периодических изданиях для установления соответствия рекламы критериям ВОЗ продвижения лекарств на рынок.

Ожидаемые результаты
Ожидаются следующие основные результаты. 1. Новые глубокие модели для интеллектуального анализа текстов на русском языке, включающие модели выявления кореферентных выражений, разрешения смысла слов, синтаксического разбора предложения. Программные реализации нескольких глубоких моделей распределенных представлений слов, а также методов выявления модификаторов полярности слов и выражений, основанные на распределенных представлениях и подходах к обработке композициональной семантики. Сравнительный анализ реализованных моделей как на публично доступных коллекциях (Wikipedia, открытый корпус (opencorpora.org)), так и на подготовленных в рамках проекта коллекциях текстов. 2. Для применения методов машинного обучения с учителем будет подготовлен и опубликован новый размеченный корпус отзывов комментариев пользователей о парафармацевтических товарах (не менее 400 комментариев). В разметку будет внесена следующая информация: аспектные термины (эксплицитные, имплицитные), тональность (позитивная, негативная, нейтральная, смешанная), статус термина (ирония, гипотетическое применение, персональный опыт и др.), аспектная категория (например, эффективность, безопасность, доступность), оценка аспектной категории. 3. Новые методы определения аспектных терминов, аспектных категорий, эксплицитных (явных) и имплицитных оценок из сообщений пользователей, использующие комбинированные подходы, сочетающие разработанные глубокие модели и лингвистические ресурсы в виде словарей оценочных слов. Программные реализации методов на основе подхода к адаптации уже обученных моделей к новым предметным областям и подходов к обучению, связанных с многозадачным обучением и использованием двуязычных представлений слов и коллекций. Сравнительный анализ реализованных методов на корпусах анализа тональности. 4. Новые методы автоматического порождения оценочных словарей определенной предметной области, использующие нейтральные контрастные коллекции и тематические модели, включающие в себя переменные, связанные с тональностью слов. Будет улучшен предложенный ранее участниками проекта подход к оптимизации гиперпараметров тематических моделей с помощью EM-алгоритма путем интеграции моделей распределенных представлений слов. 5. Впервые для русского языка будет решена задача выделения оценок о лекарственных средствах и парафармацевтических товаров. Для апробации развитого инструмента (с открытым исходным кодом) для анализа социально значимой информации будет подготовлена коллекция текстов о нескольких группах продуктов сферы здравоохранения (не менее 200 тыс. комментариев). Будет проведен сравнительный анализ извлекаемых аспектных терминов и оценок из коллекций русскоязычных текстов и англоязычных текстов о препаратах для лечения сердечно-сосудистых заболеваний (case study). Общественная значимость результатов определяется тем, что объектом исследований являются текстов из открытых источников, в том числе из сети Интернет, где содержится обширный набор информации для оценки качества здравоохранения и лекарственного обеспечения населения. Все полученные результаты будут соответствовать мировому уровню. А с учетом ориентации на обработку русскоязычных текстов и того, что задачи, которые ставятся нами в предлагаемом проекте, являются новыми, ранее для русского языка не решались, их решение будет представлять собой существенное продвижение в области анализа естественных языков (natural language processing).


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2018 году
Проведены исследования по анализу текстов пользователей медицинской направленности в следующих задачах: (I) сбор коллекции пользовательских отзывов на русском языке и создание размеченного корпуса текстов, (II) разрешение кореференции, (III) нормализация медицинских концептов, (IV) классификация лекарственных реакций. I. На первом этапе исследования (2018 год) ключевым элементом являлось создание размеченного корпуса русскоязычных отзывов о лекарствах. На русском языке до сих пор отсутствовали значимые корпуса аннотированных отзывов пользователей и наш созданный корпус – это первый сложно аннотированный русскоязычный корпус отзывов, который может быть применен в задачах анализа текстов, посвященных лекарственным препаратам, средствами интеллектуального анализа данных. При его создании учитывалась специфика российских условий, в частности потребности Росздравнадзора. В базах Росздравнадзора аккумулируются данные о рисках применения лекарственных препаратов с целью обеспечения их безопасного использования. Поскольку конкретные лекарственные препараты неоднозначно взаимодействуют с другими лекарственными препаратами, создание таких ресурсов и их практическое применение вызывает определенные трудности. Принималось во внимание, что информация из интернет-источников может быть действенным источником для фармаконадзора, фармацевтических компаний для коррекции применения лекарственных средств. Таким образом, корпус создавался для задачи автоматического обнаружения сложной информации, прежде всего о взаимодействии между лекарственными средствами, заболеваниями и побочными эффектами. Созданный нами корпус представляет совокупность текстов отзывов пациентов о применении лекарственных препаратов различных фармакотерапевтических групп для применения интеллектуальных методов машинного обучения. Данные в нашем исследовании получены с сайта “Отзовик”, который имеет раздел, предназначенный для выражения пациентами своих оценочных суждений о лекарствах. Пользователи заполняют предоставляемую форму, содержащую такие поля, как сведения о конкретном препарате с указанием причины приема лекарственного препарата, способ введения, эффективность, сведения о нежелательных действиях, сведения о заболевании. Пользователю предлагается выразить общую удовлетворенность препаратом в виде рейтинга, что интерпретируется нами, как тональность отзыва, представленного в свободной форме. Отзывы написаны на русском языке и не следуют формальным правилам грамматики, могут присутствовать просторечные обороты отдельных регионов, как России, так и стран ближнего зарубежья. Количество отзывов (исходных данных) составило 2 800, средняя длина отзыва составила 1807.6 символов. Аннотации были выполнены людьми с медицинским образованием. Разметка проводилась несколько раз, в том числе перекрестно разными аннотаторами с последующим просмотром и принятием решения экспертом специалистом-провизором. Корпус был аннотирован для выделения атрибутов лекарственных препаратов (названия лекарственного препарата, виды форм, частота применения, побочные эффекты, дозировка), заболеваний, том числе их симптомов, нежелательных реакций от определенного препарата. Для создания корпуса была сформирована методика разметки текстовых отзывов о лекарственных препаратах, учитывающая комплексный формат аннотируемых сущностей, настроена платформа для разметки отзывов с привлечением нескольких разметчиков, а также проведена разметка 2 800 отзывов с выделением более 32 тыс. сущностей разного типа. На основе созданного размеченного корпуса пользовательских текстов были проведены эксперименты по оценке точностей извлечения сущностей верхнего уровня на подчасти созданного корпуса. Для экспериментов выбрана топология сети, формирующая векторные представления слов на основе свёртки по символам, закодированным обучаемыми векторами, двунаправленного LSTM слоя (BiLSTM), кодирующего слова предложения, и выходного полносвязного слоя с функцией активации Softmax, значения которого означают вероятность принадлежности токена к одному из классов (или соответствие каждой метки токену). В ходе экспериментальных исследований выбрана модель векторного представлений слов размерностью 300, обученная на отзывах о больницах. Для обучения модели была собрана коллекция доступных в сети Интернет текстов медицинской направленности на русском языке (743 680 отзывов). Проведенные эксперименты показали, что добавление признаков тональных словарей и психолингвистических маркеров также позволяет увеличить точность в среднем на 2%. Использование комбинации признаков тональных словарей, маркеров и предобученной модели векторного представления слов, обученной на отзывах о больницах, в рамках используемой топологии нейросети позволяет достигнуть лучшей по сравнению с остальными комбинациями признаков точности классификации токенов, равной 50%, что на 3.5% выше, чем при использовании модели на базе CRF (точность оценивается как среднее значение по метрике macro-averaged f1-score по 5 независимым разбиениях множества 400 размеченных отзывов). Во второй год проекта планируется продолжить эксперименты с моделями распознавания сущностей медицинской тематики на созданном корпусе размеченных русскоязычных текстов, подготовить и опубликовать статью по итогам экспериментов. II. В направлении "разрешение кореференции" был отобран ряд работ, демонстрирующих современное состояние исследований по решению задачи кореференции. Анализ показал, что активное развитие методов автоматического разрешения кореферентных связей началось в 2012 году в рамках конференции CoNLL-2012. Для русского языка существует несколько корпусов текстов с разметкой кореферентных связей, однако они сравнительно небольшие, и между публикациями с их упоминаниями отсутствует согласованность в оценках результатов и способах разбиения корпуса на тестовые и тренировочные подмножества. Также стоит отметить, что для русского языка применению нейросетевых алгоритмов для решения этой задачи уделяется значительно меньше внимания, отчасти это связано с малым количеством размеченных данных. Вышеприведенные факты позволяют объяснить опубликованные в литературе низкие значения качества решения этой задачи. Из рассмотренных иностранных работ наибольший интерес представляет подход, описанный авторами из Университета Вашингтона в работе [Lee K., He L., Zettlemoyer L. Higher-order Coreference Resolution with Coarse-to-fine Inference //arXiv preprint arXiv:1804.05392. – 2018. https://arxiv.org/pdf/1804.05392.pdf], на основе глубокого обучения, позволивший получить лучшие результаты на корпусе CoNLL-2012. Этот подход и описанная в упомянутой работе нейросетевая модель были взяты нами за основу для развития метода разрешения кореференции и снятия омонимии. Подход был адаптирован под русский язык за счёт замены предобученных векторных представлений слов, а также используемой модели ELMo для английского языка на модель для русского языка. Сам подход был модифицирован за счет создания ансамбля нейросетевых моделей с дополнительной настройкой программных элементов для правильного учета ответов независимых моделей в его составе. Так как в ходе модели происходит многократное отсеивание входных примеров, разработанный ансамбль подразумевает усреднение оценок на всех этапах работы модели, а не только выходных значений. Объединение моделей проводилось на каждом этапе, когда они выдавали оценки, по которым производится отсеивание кандидатов на проведение кореферентной связи. Оценки от всех моделей суммируются и обратно распространяется их сумма. Таким образом, на каждом этапе модели отсеивают одинаковые варианты связей. На базе созданного подхода был проведен ряд экспериментов на русскоязычном корпусе ruCor [http://rucoref.maimbava.net/]. Для обучения использовалась перекрестная валидация по 10 разбиениям. Для реализации ансамбля было независимо обучено 4 модели, каждая из которых начинала со случайно инициализированными весами. По итогам экспериментов была достигнута средняя точность по фолдам: 64.68% по метрике F1_avg и стандартное отклонение 3.39% (F1_avg рассчитывается как 100%*(MUC_F1 + B^3_F1 + CEAFe_F1/3)). Также было выяснено следующее: ансамбль из двух и более моделей позволяет улучшить средний результат на 2%. При этом наибольший вклад в точность вносит использование ELMo модели (без нее точность уменьшается более чем на 10%). Среди предобученных моделей векторных представлений слов лучшую прибавку показывает модель Fasttext, обученная на русской wikipedia и lenta.ru (без этой модели точность уменьшается более чем на 2%). Полученные точности превосходят более чем на 25% опубликованные результаты для этого корпуса. Таким образом, полученные точности на текущий момент являются лучшими на сегодняшний день для русского языка. Результат исследования планируется опубликовать на втором году выполнения работ по проекту после проведения дополнительных сравнительных экспериментов. III. В направлении "нормализация медицинских концептов" проведено исследование моделей глубокого обучения для установления соответствия высказываний и медицинских понятий. В классической формулировке задача снятия омонимии сводится к различению разных смыслов одного термина, либо идентичных форм разных терминов. В случае текстов медицинской направленности снятие омонимии выглядит иначе, а именно, различные состояния могут описываться сходным образом (например, “болит живот” для состояний “гастрит” и “пищевое расстройство”); эта задача носит название нормализации медицинских концептов. В рамках первого года проекта решение этой задачи происходило на англоязычных и франкоязычном корпусах. Был рассмотрен подход, основанный на нейронной сети архитектуры кодировщик-декодировщик (encoder-decoder model) с внедрением дополнительных семантических признаков. Были исследованы различные архитектуры рекуррентных нейронных сетей в качестве подсетей архитектуры кодировщика-декодировщика. Было показано, что сети, содержащие в качестве кодирующей сети двунаправленную GRU сеть, а в качестве декодирующей сети - однонаправленную LSTM сеть, достигают наилучших показателей: точность - 90.4%, полнота - 82.3%, F-мера - 86.1%. Были проведены исследования с различными векторными представлениями слов и показано преимущество использования векторов, полученных на коллекции медицинских текстов PubMed. Также был проведен анализ качества предложенных моделей для французского языка. Анализ установил, что подходы, использованные для английского языка переносятся на французский с потерей качества порядка 10% по F-мере, связанной в основном с необходимостью предобработки французского языка. Были исследованы рекуррентные и сверточные нейронные сети в совокупности с семантическими признаками применительно к задаче нормализации выражений на естественном языке к медицинским терминам. Рассмотренные модели использовали два различных способа представления текста на естественном языке в векторном виде. Первый основывался на глубоких нейронных сетях, в том числе были использованы сверточная нейронная сеть, LSTM сеть, GRU сеть, а также варианты LSTM и GRU сетей с механизмом внимания. Второй способ представления основывался на семантической близости между исходным выражением и медицинскими понятиями из онтологии UMLS. При этом семантическая близость считалась как косинусное расстояние между TF-IDF или word2vec представлениями медицинских концептов и исходным выражением. Таким образом, каждый элемент полученного вектора показывал степень близости выражения на естественном языке к концептам из медицинской онтологии UMLS. На основе полученных векторных представлений производилась классификация к соответствующему медицинскому термину. Проделанный в работе анализ установил, что модели, построенные на основе обоих представлений, превосходят другие модели на 3.5% показателю F-меры. Качество описанных моделей оценивалось на общепринятом для данной задачи наборе данных CADEC. Также на основе корпуса CADEC был предложен новый метод разбиения для скользящего контроля с минимальными пересечениями между тренировочными и тестовыми выборками. Предложенный подход позволяет более точно оценить качество исследуемых моделей на данных, не присутствовавших в обучающей выборке. Разработанные методы имеют высокие показатели F-меры на данном наборе данных: 85.7% и 70.05% F-меры на исходном и на предложенном разбиениях соответственно. Полученные результаты превосходят существующие работы на 4-5% по F-мере. IV. В классической задаче анализа тональности подразумевается, что классификация тональности проводится на три класса: позитивный, нейтральный и негативный. В медицинской тематике формулировка тональности носит более сложный характер. Под эксплицитными оценками подразумеваются объекты мнения пользователя (аспекты), связанные непосредственно со здоровьем. Побочные эффекты лекарственных препаратов являются негативными аспектами, при этом непосредственно заболевания и симптомы являются нейтральными аспектами, а указания на улучшения состояния здоровья, в свою очередь, - аспектами с позитивной тональностью. Например, в предложении: “после приема второй таблетки Амиксина начался жуткий зуд, а ближе к вечеру все тело покрылось красными пятнами” выражения “зуд” и “тело покрылось красными пятнами” являются эксплицитными оценками сущности “Амиксин”, при этом их оценка отрицательная. В предложении “Энцефабол переносится прекрасно, улучшается память и проходят головные боли” эксплицитные оценки “переносится прекрасно”, “улучшается память” и “проходят головные боли” характеризуют “Энцефабол” положительно. В качестве моделей для решения данной задачи использовались разновидности рекуррентных нейронных сетей - сети с короткой долгосрочной памятью (LSTM). Исследования были начаты с простых моделей, использующих только LSTM, далее архитектуры расширялись механизмами внимания и дополнительной памяти. Эксперименты по оценке эффективности методов классификации проводились на четырех существующих англоязычных корпусах: CADEC, Твиттер, MADE, Twimed и одном русскоязычном корпусе отзывов пользователей с форума Отзовик. Корпус CADEC состоит из размеченных отзывов пользователей о лекарственных препаратах с форума askapatient.com. Корпус MADE состоит из обезличенных записей электронных карточек пациентов, больных раком. Корпус Twimed состоит из двух частей: твитов пользователей и текстов статей с ресурса PubMed. Корпус Твиттер содержит твиты пользователей на тему здоровья. Проведенные эксперименты показывают, что модель с интерактивным вниманием IAN показывает более высокое качество классификации по сравнению с базовым методом на основе классического машинного обучения (SVM с рядом признаков) и остальных представленных архитектур нейронных сетей на большинстве корпусов. Результаты работы IAN (F-мера): CADEC - 81.5%, Twitter - 79.4%, MADE - 78.6, Twimed-Twitter - 81.9%, Twimed-Pubmed - 87.4%, Отзовик - 79.3%. На корпусе Твиттер лучшие результаты показала модель RAM - 83.4%. Наибольший прирост в результатах по сравнению с базовой моделью был достигнут на корпусах Twitter (+8.5%), Twimed-Twitter (+6.1%) и Twimed-Pubmed (+4%). Дополнительно была оценена эффективность модели интерактивного внимания, обученной на всех корпусах одновременно. Этот эксперимент не привел к улучшению качества классификации. Результаты исследований опубликованы в одной журнальной статье (индексируется в Web of Science, Scopus - первая квартиль), трех статьях в трудах конференций (Web of Science, Scopus), статье в журнале из списка ВАК. Информационные ресурсы в сети Интернет (url-адреса), посвященные проекту: https://pharmvestnik.ru/articles/Pacientskie-laiki.html https://iz.ru/779124/mariia-nediuk/neironnuiu-set-obuchili-raspoznavat-zhaloby-na-lekarstva-v-sotcsetiakh https://www.if24.ru/dobryj-doktor-tsukerberg-kak-sotsialnye-seti-pomogayut-meditsine/

 

Публикации

1. - Пациентские лайки Газета "Фармацевтический вестник", выпуск №33 (946), 2018 (год публикации - ).

2. - Нейронную сеть обучили распознавать жалобы на лекарства в соцсетях МИЦ «Известия», - (год публикации - ).

3. - Добрый доктор Цукерберг: как социальные сети помогают медицине Деловой журнал «Инвест-Форсайт», - (год публикации - ).

4. Алимова И.С., Соловьев В.Д. Interactive attention network for adverse drug reaction classification Communications in Computer and Information Science: Proceedings of the 7th International Conference Artificial Intelligence and Natural Language, AINL 2018, Volume 930, 2018, Pages 185-196 (год публикации - 2018).

5. Алимова И.С., Тутубалина Е.В. Сравнительный анализ нейронных сетей в задаче классификации побочных эффектов на уровне сущностей в англоязычных текстах Труды Института системного программирования РАН, том 30, выпуск 5, 2018 (год публикации - 2018).

6. Мифтахутдинов З.Ш., Тутубалина Е.В. Leveraging deep neural networks and semantic similarity measures for medical concept normalisation in user reviews Komp'juternaja Lingvistika i Intellektual'nye Tehnologii: Proccedings of the 2018 International Conference on Computational Linguistics and Intellectual Technologies, Dialogue 2018, Volume 2018-May, Issue 17, 2018, Pages 469-489 (год публикации - 2018).

7. Мифтахутдинов З.Ш., Тутубалина Е.В. Deep learning for ICD coding: Looking for medical concepts in clinical documents in english and in French Lecture Notes in Computer Science: Proccedings of the 9th International Conference of the CLEF Association, CLEF 2018, Volume 11018 LNCS, 2018, Pages 203-215 (год публикации - 2018).

8. Тутубалина Е.В., Мифтахутдинов З.Ш., Николенко С.И., Малых В.Е. Medical concept normalization in social media posts with recurrent neural networks Journal of Biomedical Informatics, Том: 84 Стр.: 93-102 DOI: 10.1016/j.jbi.2018.06.006 (год публикации - 2018).