КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ
Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.
ОБЩИЕ СВЕДЕНИЯ
Номер проекта 18-11-00284
НазваниеМатематические модели и инструментарий для анализа социально значимой информации в русскоязычном сегменте Интернета
Руководитель Тутубалина Елена Викторовна, Доктор физико-математических наук
Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Казанский (Приволжский) федеральный университет" , Республика Татарстан (Татарстан)
Конкурс №28 - Конкурс 2018 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами»
Область знания, основной код классификатора 01 - Математика, информатика и науки о системах; 01-518 - Системы текстового поиска, обработки и анализа естественного языка
Ключевые слова извлечение информации, автоматическая обработка текстов, машинное обучение, глубокое обучение, анализ мнений
Код ГРНТИ20.53.19
ИНФОРМАЦИЯ ИЗ ЗАЯВКИ
Аннотация
Проект предусматривает создание комплексной системы моделей, методов, алгоритмов и программных средств для анализа русскоязычных текстов из открытых источников, в том числе из сети Интернет. В настоящее время накоплен огромный объем текстовой неструктурированной информации. Общедоступные тексты в явной или скрытой форме содержат обширный набор социально значимой информации. В особой степени это касается здравоохранения в целом, поскольку оно влияет на развитие человеческого потенциала, и сферы потребления и оценки населением лекарственных средств в частности. Следует отметить, что задача анализа в электронных источников информации в такой постановке до сих пор не ставилась и развитых инструментальных средств для её решения нет. Поэтому существует потребность в автоматическом анализе информации для оценки качества здравоохранения и лекарственного обеспечения населения. Специфика задачи подразумевает комплексный учёт тональной, эмотивной, тематической составляющей текста и его специализированной семантики.
В настоящее время извлечение полезных знаний из текстов определенной предметной области осуществляется по большей части вручную или с помощью базовых методов машинного обучения. В рамках проекта ставится задача разработки новых моделей, методов и программных средств обработки текстов с целью создания инструментов и их комбинирования для решения прикладных задач в сфере здравоохранения.
Новизна проекта состоит в том, что на его основе:
1) будет разработан комплекс новых или модифицированных алгоритмов, включающих:
- методы глубокого обучения (deep learning) для синтаксического разбора предложения и выявления кореферентных выражений;
- методы глубокого обучения для снятия омонимии (word sense disambiguation);
- методы определения аспектных терминов и аспектных категорий;
- методы глубокого обучения для выделения оценок, включая эксплицитные (с помощью оценочной лексики) и имплицитные (с использованием оценочных фактов);
- методы выявления модификаторов полярности слов и выражений, основанные на распределенных представлениях и подходах к обработке композициональной семантики;
- методы автоматического порождения оценочных словарей определенной предметной области, использующие нейтральные контрастные коллекции (в частности, корпус новостей) и тематические модели, включающие в себя переменные, связанные с тональностью слов;
2) будет создан инструмент (с открытым исходным кодом) для анализа социально значимой информации; важными компонентами системы будут модули лингвистического процессора (в частности, модули графематического, морфологического и синтаксического анализа) на основе глубоких нейронных сетей и семантического пространства представлений слов и символов.
Результаты проекта могут быть применены для широкого круга задач, в частности, для:
- оценки терапевтической эффективности биологически активных добавок и биологических лекарственных средств;
- диагностики уровня качества медицинских услуг для своевременной компенсации нежелательных отклонений;
- мониторинга сформированности профессиональных компетенций;
- выявлении преобладающих категорий жалоб населения;
- автоматического анализа рекламы лекарственных средств в специализированных периодических изданиях для установления соответствия рекламы критериям ВОЗ продвижения лекарств на рынок.
ОТЧЁТНЫЕ МАТЕРИАЛЫ
Публикации
1.
Тутубалина Е.В., Мифтахутдинов З.Ш., Николенко С.И., Малых В.Е.
Medical concept normalization in social media posts with recurrent neural networks
Journal of Biomedical Informatics, Том: 84 Стр.: 93-102 DOI: 10.1016/j.jbi.2018.06.006 (год публикации - 2018)
10.1016/j.jbi.2018.06.006
2. Мифтахутдинов З.Ш., Тутубалина Е.В. Leveraging deep neural networks and semantic similarity measures for medical concept normalisation in user reviews Komp'juternaja Lingvistika i Intellektual'nye Tehnologii: Proccedings of the 2018 International Conference on Computational Linguistics and Intellectual Technologies, Dialogue 2018, Volume 2018-May, Issue 17, 2018, Pages 469-489 (год публикации - 2018)
3.
Мифтахутдинов З.Ш., Тутубалина Е.В.
Deep learning for ICD coding: Looking for medical concepts in clinical documents in english and in French
Lecture Notes in Computer Science: Proccedings of the 9th International Conference of the CLEF Association, CLEF 2018, Volume 11018 LNCS, 2018, Pages 203-215 (год публикации - 2018)
10.1007/978-3-319-98932-7_19
4. Алимова И.С., Тутубалина Е.В. Сравнительный анализ нейронных сетей в задаче классификации побочных эффектов на уровне сущностей в англоязычных текстах Труды Института системного программирования РАН, том 30, выпуск 5, 2018 (год публикации - 2018)
5.
Алимова И.С., Соловьев В.Д.
Interactive attention network for adverse drug reaction classification
Communications in Computer and Information Science: Proceedings of the 7th International Conference Artificial Intelligence and Natural Language, AINL 2018, Volume 930, 2018, Pages 185-196 (год публикации - 2018)
10.1007/978-3-030-01204-5_18
6.
Алимова А.С., Тутубалина Е.В.
Detecting Adverse Drug Reactions from Biomedical Texts With Neural Networks
Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics: Student Research Workshop, С. 415-421 (год публикации - 2019)
10.18653/v1/P19-2058
7.
Мифтахутдинов З.Ш., Тутубалина Е.В.
Deep Neural Models for Medical Concept Normalization in User-Generated Texts
Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics: Student Research Workshop., С. 393-399 (год публикации - 2019)
10.18653/v1/P19-2055
8. Алимова И.С., Тутубалина Е.В. Entity-Level Classification of Adverse Drug Reaction: A Comparative Analysis of Neural Network Models Programming and Computer Software, Vol. 45, No. 8, 2019 (год публикации - 2019)
9. Мифтахутдинов З.Ш., Алимова И.С., Тутубалина Е.В. KFU NLP Team at SMM4H 2019 Tasks: Want to Extract Adverse Drugs Reactions from Tweets? BERT to The Rescue Proceedings of the Fourth Social Media Mining for Health Applications (# SMM4H) Workshop & Shared Task, С. 52-57 (год публикации - 2019)
10. Нугманов Р.И., Алимова И.С., Тутубалина Е.В. Adverse drug reactions identification in social media posts and electronic health records with neural networks EUROPEAN JOURNAL OF CLINICAL INVESTIGATION., Том: 49 Стр.: 116-117 (год публикации - 2019)
11. Нугманов Р.И., Мифтахутдинов З.Ш., Тутубалина Е.В. Addressing medical coding of free-text clinical records in English with deep learning EUROPEAN JOURNAL OF CLINICAL INVESTIGATION, Том: 49 Стр.: 117-117 (год публикации - 2019)
12.
Алимова И.С., Тутубалина Е.В., Соловьев В.Д.
Biomedical Entities Impact on Rating Prediction for Psychiatric Drugs
Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), LNCS 11832, стр. 85-92 (год публикации - 2019)
10.1007/978-3-030-37334-4_9
13.
В. Малых, А. Алексеев, С. Николенко, Е. Тутубалина, И. Шенбин
Wear the Right Head: Comparing Strategies for Encoding Sentences for Aspect Extraction
Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), LNCS 11832, стр. 155-166 (год публикации - 2019)
10.1007/978-3-030-37334-4_15
14. Тутубалина Е.В., Кадурин А., Мифтахутдинов З.Ф., Fair Evaluation in Concept Normalization: a Large-scale Comparative Analysis for BERT-based Models Proceedings of the 28th International Conference on Computational Linguistics, Association for Computational Linguistics, 2020, pages 6710–6716 (год публикации - 2020)
15. Ари Кляйн, Ильсеяр Алимова, Иван Флорес, Арджун Магге, Зульфат Мифтахутдинов, Анн-Лиз Минард, Карен О’Коннор, Абид Саркер, Елена Тутубалина, Дэви Вайссенбахер, Грасиела Гонсалес-Эрнандес Overview of the Fifth Social Media Mining for Health Applications (#SMM4H) Shared Tasks at COLING 2020 Proceedings of the Fifth Social Media Mining for Health Applications Workshop & Shared Task, publisher - Association for Computational Linguistics, pages 27–36 (год публикации - 2020)
16. Мифтахутдинов З.Ш., Сахновский А., Тутубалина Е.В. KFU NLP Team at SMM4H 2020 Tasks: Cross-lingual Transfer Learning with Pretrained Language Models for Drug Reactions Proceedings of the Fifth Social Media Mining for Health Applications Workshop & Shared Task, publisher - Association for Computational Linguistics, 2020, pages 51--56 (год публикации - 2020)
17.
Тутубалина Е.В., Алимова И.С., Мифтахутдинов З.Ф., Сахновский А., Малых В.Е., Николенко С.И.
The Russian Drug Reaction Corpus and Neural Models for Drug Reactions and Effectiveness Detection in User Reviews
Bioinformatics, Access Publication Date: 28 July 2020, pp. 1–7 (год публикации - 2020)
10.1093/bioinformatics/btaa675
18.
Мифтахутдинов З.Ш., Алимова И.С., Тутубалина Е.В.
On Biomedical Named Entity Recognition: Experiments in Interlingual Transfer for Clinical and Social Media Texts
LNCS / Proceedings of the 42nd European Conference on IR Research, ECIR 2020, Volume 12036 LNCS, 2020, Pages 281-288 (год публикации - 2020)
10.1007/978-3-030-45442-5_35
19.
Ильсеяр Алимова, Елена Тутубалина
Multiple features for clinical relation extraction: A machine learning approach
Journal of Biomedical Informatics, Volume 103, 2020, pages 103382 (год публикации - 2020)
10.1016/j.jbi.2020.103382
Публикации
1.
Тутубалина Е.В., Мифтахутдинов З.Ш., Николенко С.И., Малых В.Е.
Medical concept normalization in social media posts with recurrent neural networks
Journal of Biomedical Informatics, Том: 84 Стр.: 93-102 DOI: 10.1016/j.jbi.2018.06.006 (год публикации - 2018)
10.1016/j.jbi.2018.06.006
2. Мифтахутдинов З.Ш., Тутубалина Е.В. Leveraging deep neural networks and semantic similarity measures for medical concept normalisation in user reviews Komp'juternaja Lingvistika i Intellektual'nye Tehnologii: Proccedings of the 2018 International Conference on Computational Linguistics and Intellectual Technologies, Dialogue 2018, Volume 2018-May, Issue 17, 2018, Pages 469-489 (год публикации - 2018)
3.
Мифтахутдинов З.Ш., Тутубалина Е.В.
Deep learning for ICD coding: Looking for medical concepts in clinical documents in english and in French
Lecture Notes in Computer Science: Proccedings of the 9th International Conference of the CLEF Association, CLEF 2018, Volume 11018 LNCS, 2018, Pages 203-215 (год публикации - 2018)
10.1007/978-3-319-98932-7_19
4. Алимова И.С., Тутубалина Е.В. Сравнительный анализ нейронных сетей в задаче классификации побочных эффектов на уровне сущностей в англоязычных текстах Труды Института системного программирования РАН, том 30, выпуск 5, 2018 (год публикации - 2018)
5.
Алимова И.С., Соловьев В.Д.
Interactive attention network for adverse drug reaction classification
Communications in Computer and Information Science: Proceedings of the 7th International Conference Artificial Intelligence and Natural Language, AINL 2018, Volume 930, 2018, Pages 185-196 (год публикации - 2018)
10.1007/978-3-030-01204-5_18
6.
Алимова А.С., Тутубалина Е.В.
Detecting Adverse Drug Reactions from Biomedical Texts With Neural Networks
Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics: Student Research Workshop, С. 415-421 (год публикации - 2019)
10.18653/v1/P19-2058
7.
Мифтахутдинов З.Ш., Тутубалина Е.В.
Deep Neural Models for Medical Concept Normalization in User-Generated Texts
Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics: Student Research Workshop., С. 393-399 (год публикации - 2019)
10.18653/v1/P19-2055
8. Алимова И.С., Тутубалина Е.В. Entity-Level Classification of Adverse Drug Reaction: A Comparative Analysis of Neural Network Models Programming and Computer Software, Vol. 45, No. 8, 2019 (год публикации - 2019)
9. Мифтахутдинов З.Ш., Алимова И.С., Тутубалина Е.В. KFU NLP Team at SMM4H 2019 Tasks: Want to Extract Adverse Drugs Reactions from Tweets? BERT to The Rescue Proceedings of the Fourth Social Media Mining for Health Applications (# SMM4H) Workshop & Shared Task, С. 52-57 (год публикации - 2019)
10. Нугманов Р.И., Алимова И.С., Тутубалина Е.В. Adverse drug reactions identification in social media posts and electronic health records with neural networks EUROPEAN JOURNAL OF CLINICAL INVESTIGATION., Том: 49 Стр.: 116-117 (год публикации - 2019)
11. Нугманов Р.И., Мифтахутдинов З.Ш., Тутубалина Е.В. Addressing medical coding of free-text clinical records in English with deep learning EUROPEAN JOURNAL OF CLINICAL INVESTIGATION, Том: 49 Стр.: 117-117 (год публикации - 2019)
12.
Алимова И.С., Тутубалина Е.В., Соловьев В.Д.
Biomedical Entities Impact on Rating Prediction for Psychiatric Drugs
Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), LNCS 11832, стр. 85-92 (год публикации - 2019)
10.1007/978-3-030-37334-4_9
13.
В. Малых, А. Алексеев, С. Николенко, Е. Тутубалина, И. Шенбин
Wear the Right Head: Comparing Strategies for Encoding Sentences for Aspect Extraction
Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), LNCS 11832, стр. 155-166 (год публикации - 2019)
10.1007/978-3-030-37334-4_15
14. Тутубалина Е.В., Кадурин А., Мифтахутдинов З.Ф., Fair Evaluation in Concept Normalization: a Large-scale Comparative Analysis for BERT-based Models Proceedings of the 28th International Conference on Computational Linguistics, Association for Computational Linguistics, 2020, pages 6710–6716 (год публикации - 2020)
15. Ари Кляйн, Ильсеяр Алимова, Иван Флорес, Арджун Магге, Зульфат Мифтахутдинов, Анн-Лиз Минард, Карен О’Коннор, Абид Саркер, Елена Тутубалина, Дэви Вайссенбахер, Грасиела Гонсалес-Эрнандес Overview of the Fifth Social Media Mining for Health Applications (#SMM4H) Shared Tasks at COLING 2020 Proceedings of the Fifth Social Media Mining for Health Applications Workshop & Shared Task, publisher - Association for Computational Linguistics, pages 27–36 (год публикации - 2020)
16. Мифтахутдинов З.Ш., Сахновский А., Тутубалина Е.В. KFU NLP Team at SMM4H 2020 Tasks: Cross-lingual Transfer Learning with Pretrained Language Models for Drug Reactions Proceedings of the Fifth Social Media Mining for Health Applications Workshop & Shared Task, publisher - Association for Computational Linguistics, 2020, pages 51--56 (год публикации - 2020)
17.
Тутубалина Е.В., Алимова И.С., Мифтахутдинов З.Ф., Сахновский А., Малых В.Е., Николенко С.И.
The Russian Drug Reaction Corpus and Neural Models for Drug Reactions and Effectiveness Detection in User Reviews
Bioinformatics, Access Publication Date: 28 July 2020, pp. 1–7 (год публикации - 2020)
10.1093/bioinformatics/btaa675
18.
Мифтахутдинов З.Ш., Алимова И.С., Тутубалина Е.В.
On Biomedical Named Entity Recognition: Experiments in Interlingual Transfer for Clinical and Social Media Texts
LNCS / Proceedings of the 42nd European Conference on IR Research, ECIR 2020, Volume 12036 LNCS, 2020, Pages 281-288 (год публикации - 2020)
10.1007/978-3-030-45442-5_35
19.
Ильсеяр Алимова, Елена Тутубалина
Multiple features for clinical relation extraction: A machine learning approach
Journal of Biomedical Informatics, Volume 103, 2020, pages 103382 (год публикации - 2020)
10.1016/j.jbi.2020.103382
Публикации
1.
Тутубалина Е.В., Мифтахутдинов З.Ш., Николенко С.И., Малых В.Е.
Medical concept normalization in social media posts with recurrent neural networks
Journal of Biomedical Informatics, Том: 84 Стр.: 93-102 DOI: 10.1016/j.jbi.2018.06.006 (год публикации - 2018)
10.1016/j.jbi.2018.06.006
2. Мифтахутдинов З.Ш., Тутубалина Е.В. Leveraging deep neural networks and semantic similarity measures for medical concept normalisation in user reviews Komp'juternaja Lingvistika i Intellektual'nye Tehnologii: Proccedings of the 2018 International Conference on Computational Linguistics and Intellectual Technologies, Dialogue 2018, Volume 2018-May, Issue 17, 2018, Pages 469-489 (год публикации - 2018)
3.
Мифтахутдинов З.Ш., Тутубалина Е.В.
Deep learning for ICD coding: Looking for medical concepts in clinical documents in english and in French
Lecture Notes in Computer Science: Proccedings of the 9th International Conference of the CLEF Association, CLEF 2018, Volume 11018 LNCS, 2018, Pages 203-215 (год публикации - 2018)
10.1007/978-3-319-98932-7_19
4. Алимова И.С., Тутубалина Е.В. Сравнительный анализ нейронных сетей в задаче классификации побочных эффектов на уровне сущностей в англоязычных текстах Труды Института системного программирования РАН, том 30, выпуск 5, 2018 (год публикации - 2018)
5.
Алимова И.С., Соловьев В.Д.
Interactive attention network for adverse drug reaction classification
Communications in Computer and Information Science: Proceedings of the 7th International Conference Artificial Intelligence and Natural Language, AINL 2018, Volume 930, 2018, Pages 185-196 (год публикации - 2018)
10.1007/978-3-030-01204-5_18
6.
Алимова А.С., Тутубалина Е.В.
Detecting Adverse Drug Reactions from Biomedical Texts With Neural Networks
Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics: Student Research Workshop, С. 415-421 (год публикации - 2019)
10.18653/v1/P19-2058
7.
Мифтахутдинов З.Ш., Тутубалина Е.В.
Deep Neural Models for Medical Concept Normalization in User-Generated Texts
Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics: Student Research Workshop., С. 393-399 (год публикации - 2019)
10.18653/v1/P19-2055
8. Алимова И.С., Тутубалина Е.В. Entity-Level Classification of Adverse Drug Reaction: A Comparative Analysis of Neural Network Models Programming and Computer Software, Vol. 45, No. 8, 2019 (год публикации - 2019)
9. Мифтахутдинов З.Ш., Алимова И.С., Тутубалина Е.В. KFU NLP Team at SMM4H 2019 Tasks: Want to Extract Adverse Drugs Reactions from Tweets? BERT to The Rescue Proceedings of the Fourth Social Media Mining for Health Applications (# SMM4H) Workshop & Shared Task, С. 52-57 (год публикации - 2019)
10. Нугманов Р.И., Алимова И.С., Тутубалина Е.В. Adverse drug reactions identification in social media posts and electronic health records with neural networks EUROPEAN JOURNAL OF CLINICAL INVESTIGATION., Том: 49 Стр.: 116-117 (год публикации - 2019)
11. Нугманов Р.И., Мифтахутдинов З.Ш., Тутубалина Е.В. Addressing medical coding of free-text clinical records in English with deep learning EUROPEAN JOURNAL OF CLINICAL INVESTIGATION, Том: 49 Стр.: 117-117 (год публикации - 2019)
12.
Алимова И.С., Тутубалина Е.В., Соловьев В.Д.
Biomedical Entities Impact on Rating Prediction for Psychiatric Drugs
Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), LNCS 11832, стр. 85-92 (год публикации - 2019)
10.1007/978-3-030-37334-4_9
13.
В. Малых, А. Алексеев, С. Николенко, Е. Тутубалина, И. Шенбин
Wear the Right Head: Comparing Strategies for Encoding Sentences for Aspect Extraction
Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), LNCS 11832, стр. 155-166 (год публикации - 2019)
10.1007/978-3-030-37334-4_15
14. Тутубалина Е.В., Кадурин А., Мифтахутдинов З.Ф., Fair Evaluation in Concept Normalization: a Large-scale Comparative Analysis for BERT-based Models Proceedings of the 28th International Conference on Computational Linguistics, Association for Computational Linguistics, 2020, pages 6710–6716 (год публикации - 2020)
15. Ари Кляйн, Ильсеяр Алимова, Иван Флорес, Арджун Магге, Зульфат Мифтахутдинов, Анн-Лиз Минард, Карен О’Коннор, Абид Саркер, Елена Тутубалина, Дэви Вайссенбахер, Грасиела Гонсалес-Эрнандес Overview of the Fifth Social Media Mining for Health Applications (#SMM4H) Shared Tasks at COLING 2020 Proceedings of the Fifth Social Media Mining for Health Applications Workshop & Shared Task, publisher - Association for Computational Linguistics, pages 27–36 (год публикации - 2020)
16. Мифтахутдинов З.Ш., Сахновский А., Тутубалина Е.В. KFU NLP Team at SMM4H 2020 Tasks: Cross-lingual Transfer Learning with Pretrained Language Models for Drug Reactions Proceedings of the Fifth Social Media Mining for Health Applications Workshop & Shared Task, publisher - Association for Computational Linguistics, 2020, pages 51--56 (год публикации - 2020)
17.
Тутубалина Е.В., Алимова И.С., Мифтахутдинов З.Ф., Сахновский А., Малых В.Е., Николенко С.И.
The Russian Drug Reaction Corpus and Neural Models for Drug Reactions and Effectiveness Detection in User Reviews
Bioinformatics, Access Publication Date: 28 July 2020, pp. 1–7 (год публикации - 2020)
10.1093/bioinformatics/btaa675
18.
Мифтахутдинов З.Ш., Алимова И.С., Тутубалина Е.В.
On Biomedical Named Entity Recognition: Experiments in Interlingual Transfer for Clinical and Social Media Texts
LNCS / Proceedings of the 42nd European Conference on IR Research, ECIR 2020, Volume 12036 LNCS, 2020, Pages 281-288 (год публикации - 2020)
10.1007/978-3-030-45442-5_35
19.
Ильсеяр Алимова, Елена Тутубалина
Multiple features for clinical relation extraction: A machine learning approach
Journal of Biomedical Informatics, Volume 103, 2020, pages 103382 (год публикации - 2020)
10.1016/j.jbi.2020.103382