КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ
Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.
ОБЩИЕ СВЕДЕНИЯ
Номер проекта 23-21-00464
НазваниеИнформационная поддержка поискового конструирования на основе актуальных физических знаний
Руководитель Коробкин Дмитрий Михайлович, Кандидат технических наук
Организация финансирования, регион федеральное государственное бюджетное образовательное учреждение высшего образования "Волгоградский государственный технический университет" , Волгоградская обл
Конкурс №78 - Конкурс 2022 года «Проведение фундаментальных научных исследований и поисковых научных исследований малыми отдельными научными группами»
Область знания, основной код классификатора 01 - Математика, информатика и науки о системах; 01-509 - Извлечение знаний, базы данных и базы знаний
Ключевые слова физические эффекты, база знаний, поисковое конструирование, нейронные сети, инновационные решения
Код ГРНТИ20.23.25
ИНФОРМАЦИЯ ИЗ ЗАЯВКИ
Аннотация
На сегодняшний день существует много апробированных, хорошо зарекомендовавших себя методов генерации новых технических решений и реализующих их автоматизированных систем, которые помогают изобретать (CAI-системы). Однако их использование показывает наличие нескольких проблем, главная из которых в следующем - поддержанию в актуальном состоянии информационной составляющей процесса синтеза новых технических систем уделяется мало внимания, и этот процесс не автоматизирован.
Научная идея Проекта заключается в том, что построение моделей и методов актуализации физических знаний для информационной поддержки поискового конструирования предполагается на основе имплементации (1) технологий глубоких нейронных сетей для анализа текстовой и графической информации, (2) подготовленных обучающих выборок по тематике «Физический эффект», а также (3) высокопроизводительных методов создания программного обеспечения для анализа больших баз неструктурированных текстовых и графических знаний.
Следующие положения раскрывают основные пункты новизны:
1. Новизна метода извлечения описаний физических эффектов из естественно-языковых документов заключается в кооперации технологий глубокого обучения с частичным привлечением учителя (semi-supervised learning) на основе неразмеченной единой базы знаний в области физики и размеченного корпуса текстов, содержащих описания физических эффектов, и методов семантико-онтологического анализа текста.
2. Метод анализа графических изображений для расширения описаний физических эффектов разрабатывается впервые и заключается в реализации моделей глубокого обучения для распознавания типов зависимостей физических величин.
3. Методы анализа графических представлений математических и различных типов химических формул (текстовых, графических, табличных) также впервые позволят автоматизировано расширять описание физического эффекта.
4. Также к новым научным результатам можно отнести концепцию и архитектуру автоматизированной системы актуализации физических знаний для информационной поддержки поискового конструирования, отличающиеся использованием высокопроизводительных методов создания программного обеспечения.
ОТЧЁТНЫЕ МАТЕРИАЛЫ
Публикации
1.
Коробкин Д.М., Фоменков С.А., Козина С.А., Голованчиков А.Б.
Анализ патентного массива с использованием связки CLICKHOUSE и HDFS
МАТЕМАТИЧЕСКИЕ МЕТОДЫ В ТЕХНОЛОГИЯХ И ТЕХНИКЕ, № 3. С. 94-99 (год публикации - 2023)
10.52348/2712-8873_MMTT_2023_3_94
2.
Бобунов А.В., Коробкин Д.М., Фоменков С.А.
Разработка системы информационного поиска для сопоставления с уровнем техники
Моделирование, оптимизация и информационные технологии, Т. 11. № 3 (42). С. 12-13. (год публикации - 2023)
10.26102/2310-6018/2023.42.3.023
3.
Бобунов А.В., Коробкин Д.М., Фоменков С.А.
Development of the Concept and Architecture of an Automated System for Updating Physical Knowledge for Information Support of Search Design
Proceedings - 2023 International Russian Smart Industry Conference, SmartIndustryCon 2023, страницы 281–288 (год публикации - 2023)
10.1109/SmartIndustryCon57312.2023.10110764
4.
Васильев С.С., Коробкин Д.М., Фоменков С.А.
Extracting the Component Composition Data of Inventions from Russian Patents using Dependency Tree Analysis
Proceedings - 2023 International Conference on Industrial Engineering, Applications and Manufacturing, ICIEAM 2023, страницы 1030–1034 (год публикации - 2023)
10.1109/ICIEAM57311.2023.10139170
5.
Коробкин Д.М., Верещак Г.А., Фоменков С.А.
Formation of a Russian-English Parallel Corpus for Automatic Translation of the Text of Patents
2023 International Ural Conference on Electrical Power Engineering (UralCon), pp. 651-655 (год публикации - 2023)
10.1109/UralCon59258.2023.10291121
6.
Коробкин Д.М., Горкин В.С., Фоменков С.А.
Поиск технологических возможностей на основе анализа патентного массива
ВЕСТНИК АСТРАХАНСКОГО ГОСУДАРСТВЕННОГО ТЕХНИЧЕСКОГО УНИВЕРСИТЕТА. СЕРИЯ: УПРАВЛЕНИЕ, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И ИНФОРМАТИКА, № 4. С. 49-60 (год публикации - 2023)
10.24143/2072-9502-2023-4-49-60.
7. Коробкин Д.М., Щербинин В.С., Фоменков С.А., Тозик А.С. Анализ графических изображений патентных документов ИНЖЕНЕРНЫЙ ВЕСТНИК ДОНА, №12 (год публикации - 2023)
8.
Коробкин Д.М., Фоменков С.А., Козина С.А., Голованчиков А.Б.
Patent array analysis using a combination of ClickHouse and HDFS
Studies in Systems, Decision and Control, Cyber-Physical Systems. Studies in Systems, Decision and Control, vol 554. Springer, Cham. pp 59–70 (год публикации - 2023)
10.1007/978-3-031-67685-7_3
9.
Коробкин Д.М., Манукян А.В., Фоменков С.А., Козина С.А.
Разработка программного модуля семантического анализа патентного массива
Автоматизация и моделирование в проектировании и управлении, № 2 (20). С. 14-22 (год публикации - 2023)
10.30987/2658-6436-2023-2-14-22
Аннотация результатов, полученных в 2024 году
За второй год выполнения Проекта получены следующие научные результаты, полностью соответствующие заявленному плану работы в отчетный период:
1. Сформирован корпус естественно-языковых текстов по физической тематике при помощи модифицированного парсера информационных источников, обеспечивающего высокую скорость парсинга информации вследствие распараллеливания обработки источников, функционирование в условиях нестабильности интернет-соединений и блокировки IP-адресов. В настоящий момент база по физической тематике содержит более 1010 тыс. патентов (класс международной патентной классификации G (Физика) и более 50 тыс. аннотаций статей из журналов физического профиля.
2. Сформирован размеченный корпус текстов, содержащих физико-техническую структурированную информацию, для глубокого обучения. Для извлечения описаний физических эффектов была составлена обучающая выборка, содержащая 1787 описаний сущности физического эффекта и соответствующих характеристик его входных, выходных воздействий, объекта. 587 примеров составлено на основе ручной обработки патентных русскоязычных текстов (более 20 тыс. слов), 1200 записей получено в автоматическом режиме на основе конвертации базы данных физических эффектов. В процессе формирования обучающей выборки для извлечения технических эффектов (описаний технологических проблем, решаемых запатентованными устройствами), производилась предварительная фильтрация предложений посредством семантического анализа текста патента. В результате «ручного» анализа отфильтрованных предложений сформирована обучающая выборка, состоящая из более чем 3,7 тыс. предложений.
3. Разработан метод извлечения физико-технической структурированной информации из естественно-языковых документов. Новизна метода заключается в кооперации технологий глубокого обучения на основе размеченного корпуса текстов, содержащего описания физико-технических эффектов, и методов семантического анализа текста при подготовке обучающих выборок. Метод использует обучение / дообучение моделей T5, KeyT5, Bert для извлечения ключевых фраз (n-грамм).
4. Спроектирована и программно реализована подсистема извлечения физико-технической структурированной информации. Подсистема реализована на языке программирования Python с использованием следующих библиотек: transformers, spaCy, pytorch, nltk, tensorflow, scikit-learn, yargy. Для проверки эффективности извлечения физико-технической информации выборки были разделены на обучающую и тестовую в пропорции 90/10. Каждая из моделей (KeyT5, T5, Bert) оценена по трем ключевым метрикам: точность, полнота и F-мера. Наилучший результат на задаче извлечения технических эффектов показала модель KeyT5: точность - 0.96, полнота - 0.98, F-мера - 0.97). Модель KeyT5 также лучше справилась с задачей извлечения описаний элементов физических эффектов: точность - 0.74, полнота-0.75, F-мера - 0.75.
5. Сформирован корпус графических изображений по физической тематике, извлеченных из патентных документов систем Google Patents и Яндекс.Патенты. Реализована тематическая фильтрация патентных изображений, содержащих помимо графиков зависимостей также чертежи устройств, математические и химические формулы и т.п. Проверка эффективности тематической фильтрации на выборке (обучающей и тестовой, соотношение 80/20) из вручную отобранных изображений графиков зависимостей показала высокие значения AUC ROC – 0,97, precision – 0,79.
6. Сформирован размеченный корпус изображений, содержащих графики зависимостей физических величин, разделенный на 9 классов: линейное увеличение, линейное уменьшение, постоянство, вогнутое увеличение, выпуклое увеличение, вогнутое уменьшение, выпуклое уменьшение, скачкообразное увеличение, скачкообразное уменьшение. На основе запросов к системе Google Images получено примерно 1,9 тыс. изображений графиков зависимостей, разнесенных по 9 категориям и вручную проверенных. Использование библиотеки Matplotlib для построения графиков различных типов зависимостей позволило создать датасет, содержащий более 26 тыс. классифицированных изображений графиков зависимостей. Вручную также размечены 0,5 тыс. изображений графиков зависимостей из патентных документов.
7. Впервые разработан метод анализа изображений графиков зависимостей входных и выходных физических величин, осуществляющий сегментацию изображений (очистка изображения от «шума») и кластеризацию графиков зависимостей по 9 классам при помощи моделей глубокого обучения. Согласно алгоритму сегментации изображений графиков зависимостей опробованы два подхода: (а) использование методов цветовых пространств, водораздела, выделения контура на основе библиотеки OpenCV и (б) сегментация при помощи библиотеки scikit-image. При кластеризации графиков зависимостей по 9 классам (линейное / вогнутое / выпуклое / скачкообразное + увеличение / уменьшение, постоянство) использовались нейросетевые модели LSTM, CNN, ViT.
8. Спроектирована и программно реализована подсистема анализа изображений графиков зависимостей входных и выходных физических величин. Подсистема реализована на языке Python при помощи библиотек TensorFlow / Keras, OpenCV, sklearn, matplotlib, Pillow. Вручную проверенный корпус из 2,4 тыс. изображений графиков зависимостей был разделен в пропорции 80/20 на обучающую и тестовую выборку для 9 классов изображений. Проведена проверка эффективности моделей LTSM, CNN, ViT на задаче классификации изображений, наилучшие результаты показала модель CNN (Accuracy - 0,96; Precision - 0,97; Recall - 0,96; F1-Score - 0,96; AUC-ROC – 0.99).
В процессе проверки работоспособности и эффективности автоматизированной системы актуализации физических знаний для информационной поддержки поискового конструирования извлечены описания 29 новых физических эффектов.
По результатам выполнения Проекта в 2024 году на момент формирования отчета опубликованы / приняты к печати 2 статьи в журналах из списка RSCI ("Белого списка", категория К1); 3 статьи в сборниках материалов конференций, индексируемых в международной базе Scopus; а также 2 статьи в журналах, входящих в перечень ВАК РФ.
Результаты выполнения Проекта доложены на Международных конференциях, проводимых в России: «International Russian Smart Industry Conference» (SmartIndustryCon 2024), «6th International Conference on Control Systems, Mathematical Modeling, Automation and Energy Efficiency» (SUMMA 2024).
Публикации
1.
Коробкин Д.М., Фоменков С.А.
Анализ изображений графиков зависимостей физических величин
ВЕСТНИК АСТРАХАНСКОГО ГОСУДАРСТВЕННОГО ТЕХНИЧЕСКОГО УНИВЕРСИТЕТА. СЕРИЯ: УПРАВЛЕНИЕ, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И ИНФОРМАТИКА, Том 2025 № 1 , 2025 (год публикации - 2025)
10.24143/2072-9502-2025-1-17-27
2.
КОРОБКИН Д.М., РУБЛЕВ А.А., ФОМЕНКОВ С.А.
ПРОГНОЗИРОВАНИЕ ЗНАЧИМОСТИ ЗАПАТЕНТОВАННЫХ ТЕХНОЛОГИЙ НА ОСНОВЕ МЕТРИК ИННОВАЦИОННОГО ПОТЕНЦИАЛА
ПРОГРАММНАЯ ИНЖЕНЕРИЯ, Т. 15, № 5. – С. 243-253. (год публикации - 2024)
10.17587/prin.15.243-253
3.
КОРОБКИН Д.М.
АРХИТЕКТУРА АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ АКТУАЛИЗАЦИИ ФИЗИЧЕСКИХ ЗНАНИЙ С ИСПОЛЬЗОВАНИЕМ CLICKHOUSE И HDFS
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ, Т. 30, № 9. – С. 467-473. (год публикации - 2024)
10.17587/it.30.467-473
4.
Фоменков С.А., Коробкин Д.М., Бобунов А.В
Analysis of Graphic Images to Expand Descriptions of Physical Effects
2024 International Russian Smart Industry Conference (SmartIndustryCon) (Sochi, Russian Federation, 25-29 March 2024) : Proceedings., 2024 International Russian Smart Industry Conference (SmartIndustryCon) (Sochi, Russian Federation, 25-29 March 2024) : Proceedings. – Publisher: IEEE (Institute of Electrical and Electronics Engineers), 2024. – pp. 35-39. (год публикации - 2024)
10.1109/SmartIndustryCon61328.2024.10515770
5.
Коробкин Д.М., Орлов Н.Е., Фоменков С.А., Бобунов А.В.
Extracting physical and technical structured information from natural language documents
2024 6th International Conference on Control Systems, Mathematical Modeling, Automation and Energy Efficiency (SUMMA), 2024 6th International Conference on Control Systems, Mathematical Modeling, Automation and Energy Efficiency (SUMMA), Lipetsk, Russian Federation, 2024, pp. 353-357 (год публикации - 2024)
10.1109/SUMMA64428.2024.10803712
6. КОРОБКИН Д.М., РЯЗАНОВА М.А., ФОМЕНКОВ С.А., БОБУНОВ А.В. РУССКО-АНГЛИЙСКИЙ ПАРАЛЛЕЛЬНЫЙ КОРПУС ДЛЯ АВТОМАТИЧЕСКОГО ПЕРЕВОДА ТЕКСТА ПАТЕНТОВ ПРИКАСПИЙСКИЙ ЖУРНАЛ: УПРАВЛЕНИЕ И ВЫСОКИЕ ТЕХНОЛОГИИ, № 1(65). – С. 94-105. (год публикации - 2024)
7.
Коробкин Д.М., Щербинин В.С.,Фоменков С.А.
The Analysis of Images of Mathematical and Chemical Formulas from Patent Documents
2024 International Russian Smart Industry Conference (SmartIndustryCon) (Sochi, Russian Federation, 25-29 March 2024) : Proceedings., 2024 International Russian Smart Industry Conference (SmartIndustryCon) (Sochi, Russian Federation, 25-29 March 2024) : Proceedings. – Publisher: IEEE (Institute of Electrical and Electronics Engineers), 2024. – pp. 878-883. (год публикации - 2024)
10.1109/SmartIndustryCon61328.2024.10515580
Возможность практического использования результатов
Поступательное развитие предприятий Российской Федерации в условиях санкций, в первую очередь повлекших отказ от использования "западных" технологий, прежних технологических партнеров, требует быстрой разработки аналогичного технологического оборудования, а также новых технических систем и технологий, превосходящих "западные" аналоги.
Внедрение прорывных инновационных технологий, разработанных при помощи поискового конструирования на основе актуальных физических знаний, в производственный процесс ключевых предприятий Российской Федерации сможет способствовать созданию ими конкурентноспособной как на российском, так мировом рынках продукции, повысить их экономическую привлекательность для инвесторов, расширить рынки сбыта продукции и, соответственно, увеличить налоговые отчисления в бюджеты различных субъектов Российской Федерации и создать новые рабочие места.