КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

ОБЩИЕ СВЕДЕНИЯ

Номер 19-71-00082

НазваниеРазработка нейросетевых алгоритмов обнаружения объектов новых классов на изображениях

РуководительОсокин Антон Александрович, Кандидат физико-математических наук

Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский университет "Высшая школа экономики", г Москва

Период выполнения при поддержке РНФ

07.2019 - 06.2021

Конкурс№40 - Конкурс 2019 года «Проведение инициативных исследований молодыми учеными» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными.

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-202 - Интеллектуальный анализ данных и распознавание образов

Ключевые словаобнаружение объектов, распознавание по одной демонстрации, нейросети, глубинное обучение, компьютерное зрение, машинное обучение

Код ГРНТИ28.23.37

СтатусУспешно завершен

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ

Аннотация
Проблема обнаружения и идентификации (или, в частном случае, классификации) объектов часто является необходимым элементом многих систем автоматического анализа изображений. В качестве примеров использования обнаружения и идентификации в конкретных приложениях можно привести обнаружение препятствий системой автоматического управления автомобилем, обнаружение и распознавание лиц людей, обнаружение и анализ товаров на полке магазина. Над проблемой обнаружения и идентификации ведется работа с момента появления области компьютерного зрения, но полного решения не существует. Ведь в самом общем своем виде эта проблема неразрывно связана с общими вопросами «понимания», что делает объект объектом, и «понимания» содержания изображений. Тем не менее, частные случаи проблемы обладают огромной прикладной значимостью и в некоторых постановках уже довольно давно существуют системы показывающие хорошие прикладные результаты (например, существуют системы определения личности человека по фотографии). Дальнейшее расширение областей применимости существующих систем и улучшение их характеристик (точность и скорость работы, требования к обучающей выборке и т.д.) откроет дорогу их использованию в новых приложениях. Одним из самых необходимых улучшений является уменьшение требований к данным для обучения, а именно отказ от требований наличия обучающей выборки с отмеченными объектами именно тех классов, которые нужно обнаруживать. За последние годы технология построения систем обнаружения объектов (детекторов) по полностью размеченным данным большого объема с фиксированным списком классов существенно улучшилась и уже активно используется в приложениях. Качественный скачок в качестве технологии обусловлен широким использование глубоких нейросетей и значительными усилиями по построению подходящих моделей. Более сложная же постановка обнаружения по одной демонстрации (one-shot object detection) изучена существенно меньше. В 2018 году появилось несколько методов для похожих постановок задач, но все они решают задачу лишь частично и приводят к существенному снижению качества относительно аналогов, обученных по стандартной схеме. Тем не менее все эти работы показывают, что создание и обучение нейросетевых моделей, работающих только по одной демонстрации объекта возможно. Особым наиболее изученным (из-за практической важности) частным случаем рассматриваемой постановки является задача распознавания лиц людей по изображению, для уже существуют используемые на практике системы. Задача обнаружения объектов по одной демонстрации тесно связана с несколькими другими постановками, во всех из которых в последние годы достигнут значительный прогресс: обучение классификаторов по сверхмалым выборкам (или обучение обучению, или мета-обучение), задача поиска по изображениям (image retrieval), задача отслеживания объектов на видео (visual object tracking). Недавний прогресс в этих задачах дает основания полагать, что и в поставленной задаче можно достигнуть существенного прогресса за 2 года.

Ожидаемые результаты
В рамках этого проекта планируется разработать архитектуру нейросети, позволяющую решать задачу обнаружения объектов новых классов на изображениях. Планируется разработать алгоритм обучения этой модели и провести комплексное исследование ее достоинств и недостатков. Предполагается создание нескольких версий модели, позволяющих учитывать разные степени искажения объекта. Все разработанные алгоритмы будут реализованы в рамках популярной библиотеки глубинного обучения pytorch, и исходный код будет опубликован в открытом доступе. Ожидается, что разработанные методы обнаружения объектов новых классов будет превосходить 2 сравнимых решения, опубликованных в 2018 году, поскольку в нем целый ряд их недостатков будут устранены по построению. Разработанный алгоритм с высокой вероятность будет обладать точностью обнаружения достаточной для использования в нескольких прикладных задачах: обнаружение и распознавание товаров на полках магазинов, обнаружение и распознавание птиц разных видов. Возможны применения и к другим задачам при наличии подходящих данных.

ОТЧЁТНЫЕ МАТЕРИАЛЫ

Аннотация результатов, полученных в 2019 году
В рамках этого проекта рассматривалась задача обнаружения на изображениях объектов новых классов, определенных одной демонстрацией (one-shot detection). В отличие от стандартной задачи обнаружения объектов классы объектов на этапах обучения и тестирования не пересекаются. В рамках этого проекта была разработана система OS2D, которая выполняет распознавание класса и локализацию объекта одновременно в один этап (без разделения на два этапа как в методах вида Faster R-CNN). В системе OS2D используются сопоставление локальных признаков, извлеченных из целевого изображения и из изображения класса, при помощи корреляции, геометрическую модель преобразования в виде нейросети для выравнивания класса относительно локальной позиции на изображении, билинейную интерполяцию для вычисления силу сопоставления класс и локальной позиции. Все компоненты модели OS2D дифференцируемы, что позволяет вычислять полный градиент при помощи алгоритма обратного распространения ошибок и проводить совместное обучение всех компонент модели. В рамках этого проекта проведена экспериментальная оценка качества работы модели OS2D и ее сравнение с двумя методами: основной базовый метод, состоящий из современного детектора объектов и системы поиска похожих изображений, а также недавно опубликованный метод CoAE [Hsieh et al., 2019]. Сравнение проводилось на наборе данных Grozi32k, состоящем из изображений товаров на полках магазинов, а также на боре данных INSTRE, содержащем изображения трехмерных объектов из повседневной жизни, зданий и логотипов. В рамках проведенных экспериментов модель OS2D опередила альтернативные модели по качеству работу, причем разница была особенно велика при обнаружении новых классов, существенно отличающихся от обучающей выборки (например, при обнаружении зубной пасты при обучении на товарах из продуктовых магазинов). Основные результаты проекта изложены в препринте: Anton Osokin, Denis Sumin, Vasily Lomakin. OS2D: One-Stage One-Shot Object Detection by Matching Anchor Features. arXiv:2003.06800v1, 2020, https://arxiv.org/pdf/2003.06800.pdf Исходные коды разработанных методов опубликованы в открытом доступе: https://github.com/aosokin/os2d

Публикации

1. Осокин А.А. Three Simple Approaches to Combining Neural Networks with Algorithms Communications in Computer and Information Science, Communications in Computer and Information Science, Volume 1223, Data Analytics and Management in Data Intensive Domains 21st International Conference, DAMDID/RCDL 2019, Kazan, Russia, 2019, Revised Selected Papers (год публикации - 2020)

2. Осокин А.А., Ломакин В.Д., Сумин Д.А. OS2D: One-Stage One-Shot Object Detection by Matching Anchor Features arXiv, arXiv:2003.06800 (год публикации - 2020)

Аннотация результатов, полученных в 2020 году
В 2020-2021 году в рамках этого проекта получены следующие результаты: - Разработано 4 группы моделей, поддерживающих нелинейные трансформации в рамках системы OS2D. Для двух моделей удалось получить небольшое улучшение качества обнаружения (модель с каскадом линейного и нелинейного TPS преобразования, модель с 4-х мерными свертками, реализованными через каскад двумерных сверток по разным размерностям). Тем не менее улучшения качества оказались небольшими, что не оправдывает значительное уменьшение скорости работы модели. - Разработан метод выбора наилучшего детектируемого объекта из группы пространственно близких кандидатов (и подавления остальных кандидатов из группы) на основе попарных сравнений карт признаков кандидата детекции и экземпляра класса (обобщение стандартного метода non-maximum suppression). Небольшого улучшения качества работы достигнуть удалось, но время работы увеличилось значительно, что не оправдывает использование метода на практике. - Разработанный метод был интегрирован в функцию потерь OS2D, но опять же оказался слишком медленным для использования при обучении на достаточно большом количестве объектов. Работа (Osokin2020) была представлена на конференции European Conference on Computer Vision (ECCV) - одной из ведущих мировых конференций по компьютерному зрению. (Osokin2020) Anton Osokin, Denis Sumin and Vasily Lomakin. OS2D: One-Stage One-Shot Object Detection by Matching Anchor Features. In proceedings of the European Conference on Computer Vision (ECCV), 2020

Публикации

1. Осокин А.А. Three Simple Approaches to Combining Neural Networks with Algorithms Communications in Computer and Information Science, Proceedings of DAMDID/RCDL 2019: Data Analytics and Management in Data Intensive Domains, Volume 1223, Pages 3-12 (год публикации - 2020) https://doi.org/10.1007/978-3-030-51913-1_1

2. Осокин А.А., Сумин Д.А., Ломакин В.Д. OS2D: One-Stage One-Shot Object Detection by Matching Anchor Features Computer Vision – ECCV 2020, Proceedings of the 16th European Conference on Computer Vision, LNCS, volume 12360, pp 635-652 (год публикации - 2020) https://doi.org/10.1007/978-3-030-58555-6_38

Возможность практического использования результатов
не указано