Разработка высокоточных моделей, методов и алгоритмов с использованием многомодальных методов глубокого обучения для ранней диагностики заболеваний легких

КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

ОБЩИЕ СВЕДЕНИЯ

Номер проекта 23-21-10009

НазваниеРазработка высокоточных моделей, методов и алгоритмов с использованием многомодальных методов глубокого обучения для ранней диагностики заболеваний легких

Руководитель Макаровских Татьяна Анатольевна, Доктор физико-математических наук

Организация финансирования, регион Федеральное государственное автономное образовательное учреждение высшего образования "Южно-Уральский государственный университет (национальный исследовательский университет)" , Челябинская обл

Конкурс №76 - Конкурс 2023 года «Проведение фундаментальных научных исследований и поисковых научных исследований малыми отдельными научными группами» (региональный конкурс)

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах; 01-201 - Искусственный интеллект и принятие решений

Ключевые слова Многомодальное глубокое обучение, заболевания легких, многомодальное слияние, медицинская диагностика, машинное обучение, высокоточные методы, сверточные нейронные сети, рекуррентная нейронная сеть

Код ГРНТИ28.23.00

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ

Аннотация
Целью проекта является разработка и исследование новых моделей, методов и алгоритмов для выявления и диагностики заболеваний легких на ранних стадиях на основе многомодальных методов глубокого обучения. Основная актуальность исследования обусловлена необходимостью высокоточных и эффективных решений в ранней диагностике критических заболеваний легких, таких как пневмония, рак легких, эмфизема, туберкулез и ХОБЛ (хроническая обструктивная болезнь легких). Причиной смерти при этих заболеваниях часто является несвоевременная диагностика и недостаточно качественный прогноз, что является одной из серьезных проблем в области здравоохранения. В настоящее время передовые методы искусственных нейронных сетей, такие как глубокое обучение, сверточные нейронные сети, рекуррентные нейронные сети, используются в медицине для ранней диагностики ряда серьезных заболеваний - рака молочной железы, туберкулеза легких, сердечно-сосудистых заболеваний, инсульта, поражений органов при COVID-19 и других. Однако новые высокоточные и эффективные методы выявления заболеваний легких все еще нуждаются в разработке, также как и существующие модели имеют большой потенциал к улучшению на основе новых подходов В настоящее время доктора диагностируют наличие заболеваний легких по характерным пятнам, скоплениям и узелкам на изображениях легких. Нейронная сеть может улучшить дифференциальную диагностику, классифицируя патологические участки по плотности и текстурным характеристикам. Предлагаемые модели значительно упростят визуальные количественные оценки, вычисляя объем вызывающего подозрение очага. Большое разнообразие заболеваний легких определяет нетривиальность задачи диагностики заболеваний легких. Для разработки более эффективных и надежных моделей методы слияния нескольких моделей можно комбинировать с методами глубокого обучения. В настоящее время у нас есть доступ к крупным свободно-распространяемым обезличенным наборам данных со статистическими данными по предмету проекта, и мы можем реализовать рабочие модели путем ее хорошо проведенной валидации и тестирования. Использование не искусственно сгенерированных, а реальных рентгеновских снимков обеспечит высокий уровень точности и надежности прогнозируемого диагноза. Научная новизна предлагаемого исследования заключается в следующем. В медицинских приложениях с каждым пациентом связано несколько типов данных, включая рентгенологические снимки, результаты медицинских анализов, записи и предписания врача, сведения о приеме лекарств и другие. Кроме того, неоднородность медицинских данных обусловлена особенностями используемого в различных больницах диагностического оборудования. Так, модель сканера может повлиять на качество изображения. Неоднородность данных может стать следствием различного опыта операторов, различными параметрами сканирования, а также разнообразием групп пациентов – их полом, возрастом, имеющимися заболеваниями, анамнезом и другими. Обычные алгоритмы демонстрируют высокую точность на ограниченном наборе данных, но часто допускают ошибки при анализе новых снимков и медицинских данных. Мы сделаем алгоритм обобщаемым и продемонстрируем эффективность в различных клинических ситуациях. Таким образом, когда данные поступают из разных источников, подход многомодального глубокого обучения может извлечь больше полезной информации, а также достичь более высокой точности. Нами будет разработана многомодальная система глубокого обучения, позволяющая объединить многомодальность и глубокое обучение. Эта система сможет комбинировать данные нескольких типов, таких как изображения, текст, аудио и т.д. Комбинируя больше модальностей, задействованных в обработке информации, многомодальное обучение позволит извлечь значимые характеристики и улучшить способность к не только к диагностике, но и прогнозированию развития заболевания.

ОТЧЁТНЫЕ МАТЕРИАЛЫ

Публикации

1. Сита Рани, Аман Катария, Сачин Кумар, Праяг Тивари Federated learning for secure IoMT-applications in smart healthcare systems: A comprehensive review Knowledge-Based Systems, 274 (2023) 110658 (год публикации - 2023)
10.1016/j.knosys.2023.110658

2. О.Н. Иванова, А.В. Мелехин, Е.В. Иванова, С. Кумар, М.Л. Цымблер INTERMEDIATE FUSION APPROACH FOR PNEUMONIA CLASSIFICATION ON IMBALANCED MULTIMODAL DATA Вестник ЮУрГУ. Серия «Вычислительная математика и информатика», 12 (3) (год публикации - 2023)
10.14529/cmse230302

3. Сэчин Кумар, Ольга Иванова, Артем Мелехин, Праяг Тивари Deep-learning-enabled multimodal data fusion for lung disease classification Informatics in Medicine Unlocked, 42, 101367 (год публикации - 2023)
10.1016/j.imu.2023.101367

4. О.Н. Иванова, С. Кумар, М.Л. Цымблер, Е.В. Иванова КЛАССИФИКАЦИЯ МУЛЬТИМОДАЛЬНЫХ ДАННЫХ О ЗАБОЛЕВАНИЯХ ЛЕГКИХ НА ОСНОВЕ ПОЗДНЕГО СЛИЯНИЯ МОДАЛЬНОСТЕЙ Вестник ЮУрГУ. Серия: Вычислительная математика и информатика (год публикации - 2024)

5. Сэчин Кумар, Прадип Кумар Маллик, Ольга Ворфоломеева A Comparative Study on Multi-modal Fusion for Automated Lung Disease Diagnostics In the Proceedings of the 4th International Conference on Emerging Systems and Intelligent Computing (ESIC- 2024) (год публикации - 2024)

6. Анудж Кумар Сингх, Сачин Кумар An Efficient and Secure CLAKA Protocol for Blockchain-Aided Wireless Body Area Networks Expert Systems with Applications, 242, 2024, 122740 (год публикации - 2024)
10.1016/j.eswa.2023.122740

7. Мостафа Аботалеб SOLVING THE OPTIMIZING PARAMETERS PROBLEM FOR NON-LINEAR DATASETS USING THE HIGH-ORDER GENERAL LEAST DEVIATIONS METHOD (GLDM) ALGORITHM Computational Methods for Differential Equations (CMDE), Computational Methods for Differential Equations (CMDE) (год публикации - 2024)
10.22034/cmde.2024.62441.2751

8. Аботалеб Мостафа Soft Computing-Based Generalized Least Deviation Method Algorithm for Modeling and Forecasting COVID-19 using Quasilinear Recurrence Equations Iraqi Journal for Computer Science and Mathematics, Vol.5, Issue 3, article 39 (год публикации - 2024)
10.52866/ijcsm.2024.05.03.028

9. Наиф Альмусаллам, Вусала Мурадова, Мостафа Аботалеб, Татьяна Макаровских, Хусейн Алькаттан, Омар Г. Ахмед, Маад М. Миджвил A U-Net Framework Using Differential Equations for Enhanced Computer Vision in Lung Disease Diagnosis Computational Methods for Differential Equations (год публикации - 2024)
10.22034/cmde.2024.64290.2905

10. Мостафа Аботалеб Proving Optimal Model Selection and Zero Coefficient Cases in Time Series Forecasting with the Generalized Least Deviation Algorithm Advanced Mathematical Models & Applications, Vol.9, No.3 (год публикации - 2024)

11. Варункумар К.А., Цымблер М., Кумар С. Multimodal Deep Dilated Convolutional Learning for Lung Disease Diagnosis. Brazilian Archives of Biology and Technology Brazilian Archives of Biology and Technology, Vol. 67, ID 24231088 (год публикации - 2024)
10.1590/1678-4324-2024231088

12. Кумар С., Шарма С. An Improved Deep Learning Framework for Multimodal Medical Data Analysis Big Data and Cognitive Computing, Kumar, S.; Sharma, S. An Improved Deep Learning Framework for Multimodal Medical Data Analysis. Big Data Cogn. Comput. 2024, 8, 125. https://doi.org/10.3390/bdcc8100125 (год публикации - 2024)
10.3390/bdcc8100125

Аннотация результатов, полученных в 2024 году
1. Разработана модель глубокого обучения для мультимодальных гетерогенных данных о заболевании туберкулезом. Набор данных получен от министра здравоохранения правительства штата Уттаракханд, Индия. Набор данных содержит следующую информацию: данные медицинской визуализации (рентгеновские снимки грудной клетки) и клинические отчеты (информация о температуре, анализе крови, мокроте, кровяном давлении, привычках к курению и т.д.). Первоначально оба набора были предварительно обработаны, а затем характеристики были извлечены с помощью автокодеров с шумоподавлением из для извлечения признаков из данных визуализации использовались клинические данные и различные модели глубокого обучения. Кроме того, кросс-модальный преобразователь используется для объединения разнородных признаков и получения унифицированного набора признаков. В дальнейшем эти признаки используются для классификации заболеваний. Для оценки эффективности предлагаемой модели используются различные классификационные показатели, такие как точность, отклик, полнота, F-score, MCC, ROC. На основе этого набора данных были также разработаны и оценены существующие трансформаторы (early, late, hybrid). Было проведено сравнение разработанной модели с IRENE, подходом к унифицированному представлению с использованием трансформатора, предложенным Чжоу и др. для имеющегося набора данных. Предложенная модель превосходит традиционные аналогичные модели по всем параметрам. Так, модель Early Fusion обладает самой низкой производительностью из всех моделей, она не рекомендуется для гетерогенного трансформатора. Модели late и hybrid fusion показали несколько лучшую производительность, нежели модели early fusion, а производительность IRENE была замечательной. Унифицированное представление, безусловно, помогает повысить эффективность классификации. Точность с IRENE улучшилась примерно на 9% в рассмотренном наборе данных по туберкулезу. Однако разработанная модель превзошла IRENE с небольшим преимуществом на имеющемся наборе данных. Результаты вычислительных экспериментов показали, что предложенная модель превосходит традиционные комбинированные модели, используемые для классификации заболеваний. 2. Проведено исследование гомогенного мультимодального трансформатора с использованием глубокого расширения CNN. В исследовании рассмотрена проблема неправильной диагностики при заболеваниях легких с использованием одномодальных признаков. Чтобы устранить это несоответствие, в предлагаемом исследовании представлена новая мультимодальная система глубокого обучения, которая эффективно использует данные компьютерной томографии, рентгенографии и ПЭТ-сканирования. Этот подход позволяет извлекать функции, уникальные для каждого метода. Методы слияния, такие как позднее или раннее слияние, используются для эффективного сбора синергетической информации из различных источников. Добавление в модель большего количества слоев сверточной нейронной сети (CNN) и операций объединения в пул улучшает возможность получения абстрактных представлений. Затем для целей классификации используются полностью связанные слои. Модель обучается с использованием соответствующих функций потерь и оптимизируется с использованием градиентных методов. Мультимодальное углубленное обучение очень важно для точной медицинской диагностики. Однако важными критериями являются подготовка мультимодальных наборов данных и отбор наилучших функций, которые участвуют в процессе диагностики. Поскольку исследование является новым, не удалось найти аналогичные исследования, которые можно было бы сравнить с разработанной моделью. Чтобы проверить и валидировать эффективность разработанной модели, проведены перекрестные проверки k раз. Для оценки значения k были приняты равными 3, 5, 10 и 15. Производительность модели была лучше при k=10. После проведения 10-кратной перекрестной проверки модель достигла точности 94%. Наблюдались потери при обучении и тестировании в разные эпохи. Перекрестная энтропия рассматривается как функция потерь для проверки работоспособности моделей на этапе обучения и тестирования. Предлагаемая методика демонстрирует значительное повышение точности диагностики заболеваний легких по сравнению с традиционными методами, использующими одиночную модальность. 3. Разработан подключаемый к системе модуль прогнозирования выживания при раке легкого, использующие результаты анализа данных, полученных в результате диагностики с использованием предложенной нейросетевой модели, на основе кросс-модельного слияния с использованием трансформатора. Унифицированные объединенные признаки, предоставляемые кросс-модальным преобразователем представляют собой временные ряды, используемые модулем прогнозирования в качестве входных данных. Модуль подключен к комплексной системе прогнозирования данных, представленных в виде одномерных временных рядов, с состав которой входят статистические, нейросетевые и аналитические методы моделирования и прогнозирования. При разработке модуля выживания использованы известные подходы (вызов соответствующих функций в разработанной системе прогнозирования): модель пропорционального риска Кокса, регрессия Кокса, а также искусственная нейронная сеть, которая обучалась на основе объединенных признаков. Разработанная система прогнозирования позволяет использовать ансамблевый подход и подбирать лучшую модель для прогнозирования на основе имеющихся входных данных и полученных метрик для выходных данных для принятия окончательного решения по выбору модели. Для этого системой рассчитываются следующие метрики: показатель R-квадрат, средняя абсолютная процентная ошибка (MAPE), средняя абсолютная ошибка (MAE), среднеквадратичная ошибка (MSE), корень среднеквадратичной ошибки (RMSE), средняя ошибка (ME).

Публикации

Возможность практического использования результатов
Результаты проекта могут быть использованы в медицинских центрах для решения задач диагностики зоболеваний легких и анализе прогноза выживаемости пациентов после перенесенных заболеваний. Результаты проекта могут быть полезны при разработке подходов к организации персонифицированной медицины и проведения научных исследований медицинскими работниками.