КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 20-14-00097

НазваниеНасекомые России через призму цифровой визуализации коллекционных фондов

РуководительСолодовников Алексей Юрьевич, Кандидат биологических наук

Организация финансирования, регион Федеральное государственное бюджетное учреждение науки Зоологический институт Российской академии наук, г Санкт-Петербург

Период выполнения при поддержке РНФ 2020 г. - 2022 г. 

Конкурс№45 - Конкурс 2020 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами».

Область знания, основной код классификатора 04 - Биология и науки о жизни, 04-101 - Зоология

Ключевые словаНасекомые, вид, фенотип, генотип, эволюция, компьютерное зрение, цифровая фотография, сверточные сети, машинное обучение, систематика, фауна России, интернет технологии, цифровизация

Код ГРНТИ34.03.21


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Насекомые – самый разнообразный класс многоклеточных животных, доминирующий по числу видов и биомассе во всех наземных природных сообществах Земли (Stork 2018). Вероятно, это наиболее информативный модельный таксон для выявления и анализа общих закономерностей фундаментальной и прикладной биологии, в том числе и для прогнозирования реакции экосистем на неотвратимые негативные антропогенные воздействия (Sala et al., 2000; Schowalter, 2016). Например, наблюдаемое в настоящее время массовое вымирание насекомых может в недалекой перспективе привести к коллапсу основных наземных экосистем (Régnier et al., 2015; Leather, 2017; Seibold et al., 2019). В то же время, невероятное разнообразие вкупе со слабой изученностью создают непреодолимые препятствия в использовании насекомых для исследований общебиологического характера, в отличие от гораздо лучше изученных растений и позвоночных животных, уже используемых для таких исследований. Это препятствие, известное как “Linnean shortfall”, или “неполнота Линнея” (Brito 2010, Cardoso et al. 2011; Hortal et al. 2015), в значительной степени исключает насекомых из пула данных, анализируемых науками о Земле. Вместе с тем, в огромных музейных коллекциях насекомых по всему миру, накопленных в течение нескольких веков, содержатся уникальные и, зачастую, наиболее подробные данные о видовом разнообразии разных регионов. A к настоящему времени в арсенале биологов появились необходимые инструменты для эффективного и быстрого изучения коллекционных данных (Fank 2018). Однако они по-прежнему остаются нереализованными на практике. Эта проблема особенно актуальна для Российской Федерации, занимающей существенную часть Евразийского материка и обладающей богатой, до сих пор слабо изученной энтомофауной (Ильин, 2004; Синев, 2008; Винокуров и др. 2010; Лобанов, 2018). Таким образом, разработка алгоритмов работы и демонстрация путей взаимодействия музейных коллекций и технологий в энтомологической практике становится одной из актуальнейших задач эволюционной биологии. Крайняя малоизученность фауны насекомых России при наличии в Санкт-Петербурге государственной коллекции насекомых Зоологического Института РАН, крупнейшей в России и в мире, – яркий пример очевидной необходимости в создании успешного рабочего метода эффективной обработки данных зоологических коллекций. В ответ на эту проблему мы предлагаем наш проект, направленный на совершенствование методики систематического изучения самых крупных, наиболее сложных в таксономическом плане групп насекомых. Мы предлагаем поставить новейшие технологические достижения в области баз данных и интернет-технологий, геномики и филогенетики, а также компьютерного зрения на основе машинного обучения на службу научной мобилизации таких крупных коллекций, как представленная в ЗИН РАН. На примере детального изучения Staphylinidae (жуки-хищники) и Miridae (клопы-слепняки), т.е. двух мега-разнообразных семейств насекомых, мы продемонстрируем, как, что и зачем нужно улучшить в работе современного энтомолога-систематика для преодоления “неполноты Линнея”, по крайней мере, в пределах границ России, то есть очень большой доли Евразийского континента и Палеарктической биогеографической области. Staphylinidae и Miridae обильно представлены в фауне России, первые в ее более северных широтах и главным образом в тундровых и лесных ландшафтах, вторые в основном на юге, доминируя в открытых ландшафтах, особенно в степях. Вместе оба эти таксона способны служить как адекватной выборкой природного разнообразия России, так и материалом для раскрытия проблем энтомологии как науки. Все то, что применимо к этим группам, будет применимо и к другим насекомым. Для реализации проекта мы выполним серию взаимосвязанных, но разных по задачам и объему систематических работ по этим модельным группам, от каталогов фауны России до детальных таксономических ревизий, основанных на филогенетическом подходе. В отличие от традиционной практики, мы будем работать с применением принципиально новых методов, попутно разрабатывая способы их внедрения в энтомологию, а именно: 1) На всех этапах от сбора данных до публикации результатов, мы будем использовать единый специально разработанный для этих целей веб-портал, который позволит эффективное управление обширными данными посредством веб-технологий; 2) Мы внедрим высокопроизводительную оцифровку энтомологических коллекций; 3) Мы разработаем и также внедрим метод точной и эффективной идентификации видов и их кластеризации в филогенетические группы путем анализа фенотипов насекомых с помощью компьютерного зрения и машинного обучения на основе сверточных нейронных сетей (CNN) (LeCun et al., 2015, Schmidhuber, 2015). Наши задачи (2) и (3) умножат ценность экземпляров с разрушенной ДНК, которых значительно больше в энтомологических коллекциях, чем материала, пригодного для молекулярно-генетической работы. Все три задачи вместе позволят задействовать для точных исследований не малые выборки экземпляров, а весь доступный коллекционный материал. Так как разработки веб-подходов в биологической систематике (наша задача 1) и эффективной оцифровки коллекций (наша задача 2) уже ведутся и внедряются в мировой практике в течение последних десятилетий (например, Meier & Dikow 2004, Mantle et al. 2012, Nelson et al. 2012, Funk et al. 2018, Hudson et Allan et al. 2019), здесь мы планируем лишь адаптацию этих достижений к Российским условиям. В России подобные инициативы едва только начинаются, и пока главным образом только у ботаников (Seregin 2016, 2017, http://altaiflora.asu.ru/ru/) и териологов (Калякин и др. 2017). Вторая и она же центральная задача нашего проекта (задача 2) направлена на оптимизацию процедуры определения видов в таксономически сложных группах. Пока что она не имеет аналогов в мировой практике. Исследования применения компьютерного зрения в биологии только начинаются, и здесь у нас есть шанс вырваться в мировые лидеры этого направления, так как в изучении энтомофауны России заинтересованы очень многие специалисты, в России и за рубежом, особенно коллеги в Европейских странах а также в Китае и Японии, с которыми мы связаны единством Евразийской энтомофауны. Быстрое развитие современных молекулярно-филогенетических и популяционных исследований определило более четкие критерии для разграничения видов у самых разных организмов с использованием вероятностных методов для анализа молекулярно-генетических маркеров (Vitecek et al., 2017; Dayrat, 2005; Lukhtanov, 2019). В то же время фенотип, не менее информативный и измеримый, чем генотип, пока не применяется для подобного количественного и точного определения видовых границ из-за отсутствия подходящей технологии. Самые последние достижения в области компьютерного зрения обещают реализовать подобные подходы, полностью основанные на фенотипах (Valan et al., 2019). На основе оцифрованных коллекционных экземпляров насекомых и их одновременном молекулярно-генетическом исследовании в качестве контроля, мы предлагаем изучить и использовать возможности машинного обучения для идентификации видов насекомых и их филогенетической кластеризации. В целом, все три задачи нашего проекта ориентированы на подготовку платформы для работы ученых-энтомологов нового поколения.

Ожидаемые результаты
В результате проекта будут существенно улучшены знания о фауне России по двум крупнейшим семействам насекомых из двух разных отрядов. В частности, по стафилинидам будет создан первый полный веб-доступный каталог по фауне России для всего семейства. Последний такой каталог был опубликован в 1973 году (Тихомирова, 1973). Сходным образом, мы планируем создать полный электронный каталог клопов-слепняков (Miridae) фауны России, отражающий и визуализирующий литературные и коллекционные данные, изображения и другую таксономическую информацию. Такие каталоги станут основой для агрегации, удобной визуализации и анализа всех данных, полученных в ходе проекта. Нами будут глубже изучены и усовершенствованы возможности сверточных нейронных сетей для точной идентификации объектов биоразнообразия по их изображениям. Будут предложены нейросетевые архитектуры классификации объектов с высоким уровнем качества распознавания видов и внутривидовых вариаций по цифровым фотографиям отдельных коллекционных экземпляров. Для быстрого получения фотоизображений изучаемых насекомых на основе тысяч коллекционных экземпляров в ЗИН РАН будет создана установка для эффективной дигитализации коллекций с использованием лучшего мирового опыта (Mantle et al., 2012; Hudson et al., 2015; Allan et al., 2019). Все методические нововведения будут внедряться в практику энтомологической систематики, что сделает ее более эффективной, а ее результаты – доступными для анализа в филогеографических, экологических и эволюционных исследованиях. Разработка автоматизированной диагностики видов и других таксонов животных и растений начата в мировой практике сравнительно недавно и пока ограничена определением обычных видов для хорошо изученных фаун (например, Wah et al., 2011, Nilsback & Zisserman, 2008). Наши результаты выведут разрешающую способность метода на новый уровень и будут способствовать внедрению сверточных нейронных сетей (CNN) для выполнения масштабных и повторяющихся задач в биологической систематике и высвобождения таким образом времени и ресурсов экспертов для синтеза и творчества. Для такой малоизученной и обширной группы животных как насекомые, в рамках которой даже в отдельно взятой стране, например в России, наука имеет дело с десятками тысяч только приблизительно очерченных видов и миллионами экземпляров, наш метод будет крайне актуальным и точным инструментом для ускоренного и стандартизированного изучения реального биоразнообразия. В мировом масштабе, автоматизация точной видовой диагностики наконец-то позволит преодолеть так называемую “неполноту Линнея“ (или таксономический импедимент) (Wheeler et al., 2004; deCarvalho et al., 2005). Уйдет в прошлое принципиальная невозможность полной научной инвентаризации эволюционно успешных таксонов с ошеломляющим числом трудно различимых видов. Глубокое изучение работы нейронных сетей применительно к задаче их ступенчатого обучения станет вкладом в теорию машинного обучения. Разработка подходов к эффективному применению компьютерного зрения в изучении таких сложных биологических объектов как насекомые и выработка конкретных алгоритмов анализа и программ (скриптов) их реализации будут произведены впервые в мировой практике. Мы надеемся, что это может существенно повлиять на их дальнейшее развитие и широкое применение в изучении биоразнообразия. В качестве обучающих баз данных для тренировки CNN, в проекте будут детально (генотипически и фенотипически) изучены несколько видовых комплексов обитающих на широком пространстве Евразийского материка. Веб-портал, компьютерное зрение и массовая оцифровка коллекций, позволят существенно расширить объемы материала по насекомым, доступного для изучения микроэволюции. Пока что мировая практика в этой области ограничена лишь материалом, пригодным для секвенирования ДНК. Подобные микроэволюционные исследования крайне немногочисленны для территории России, из-за чего история возникновения, расселения или вымирания даже тех видов, для которых имеются подробные данные по Европе, остается неполной, а порой и просто ложной (Zink et al., 2006; Danukalova et al., 2009; Horsák et al., 2010). Поставленные задачи будут отработаны на нескольких модельных группах, хорошо представляющих фенотипическое и биологическое разнообразие насекомых в целом. В частности, это позволит дать сводку всех родов семейства Staphylinidae, известных из фауны России и провести полные ревизии двух родов – Philonthus и Oxyporus, кардинально различающихся по числу видов,биологии, типам распространения и другим особенностям. Параллельно мы проведем работу по разработке видовых границ для плохо изученных групп семейства Miridae, в частности Anapus, Dicyphus, Globiceps, Europiella и Plagiognathus. Несколько лучше изученных групп на данный момент выбраны в качестве моделей для первичного обучения нейронных сетей, в частности, это роды Quedius (Salnitska & Solodovnikov, 2018, 2019), Orthocephalus (Namyatova & Konstantinov 2009), Agraptocoris (Konstantinov, 2019) и триба Bryocorini (Konstantinov & Knyshov, 2015). В результате этого проекта они будут настолько детально изучены в морфологическом и молекулярно-генетическом плане что смогут стать моделью для более сложных исследований (например, филогеографических) уже в ближайшее время. Планируемый веб-портал послужит платформой для продолжения исследований инновационными методами, как по нашим, так и по новым модельным группам. В частности, наш веб-портал позволит анализировать данные по ряду визуально удобных запросов, которые невозможно делать для этих же данных, опубликованных в виде статей. Наконец, с его помощью можно будет загружать фотографии насекомых и получать их быстрое определение до рода, а в некоторых случаях и до вида, что поможет тем, кто не является экспертом в систематике определенной группы насекомых, например экологам, работникам сельского и лесного хозяйства, службы карантина и т. д.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2020 году
За первый подотчетный период нами выполнен намеченный план работы почти в полном объеме по всем трем заявленным основным направлениям, а именно: (1) Организация фотоустановка, оцифровка коллекций, обучение моделей нейронных сетей на основе полученных изображений. (2) Таксономические ревизии сложных групп насекомых. (3) Каталогизация фауны и проектирование веб-портала. 1.Первое направление включает наиболее инновационные элементы нашего проекта. Собрана фотографическая установка в ЗИН РАН для оцифровки коллекций насекомых, которые мы уже начали использовать для обучения нейронных сетей. Установка представляет собой комплекс высококачественного фотографического оборудования и высокопроизводительного ПК с установленным программным обеспечением. С ее помощью к настоящему времени нами получено 3792 изображений модельных групп клопов-слепняков и 4560 изображений рода Stenus, выбранного в качестве модельного для жуков-стафилинид. На их основе уже создана и активно используется первичная база данных изображений для обучения моделей нейронных сетей. Первые эксперименты в использовании этих изображений для машинного обучения потребовали добавления специализированных вычислительных мощностей в виде компьютера с графическим процессором (nVidia RTX 2060 SUPER), позволяющим существенно ускорить обучение за счет программно-аппаратной архитектуры параллельных вычислений CUDA. Данный компьютер был встроен в общую инфраструктуру сети ЗИН РАН, в результате чего удалось организовать удаленное подключение для постановки экспериментов и их контроля через протокол прикладного уровня Secure Shell (SSH) и терминальный мультиплексор для многозадачной работы в терминале. Создание такой виртуальной инфраструктуры и получение первых больших массивов фотографий экземпляров по модельным группам позволило выполнить ряд экспериментов по тренировке сверточных нейронных сетей и в первую очередь определить их основные архитектуры, с которыми решалась задача определения видов. Для сравнительного анализа было выбрано 11 широко применяемых архитектур: mobilenet_v2, mobilenet_v3, resnet18, resnet34, resnet50, resnet101, resnet152, wide_resnet50_2, 'wide_resnet101_2, resnext50_32x4d, resnext101_32x8d с реализацией на pytorch (https://pytorch.org/hub/). Обучение каждой модели проходило в трех различных конфигурациях в зависимости от того, какой метод был использован для борьбы с несбалансированностью классов. Таким образом, для каждой постановки задачи из трех было обучено по 11 моделей с тремя различными конфигурациями сборки изображений в батч, что в сумме составило 99 проведенных экспериментов. Полученные предварительные результаты позволяют говорить о качестве классификации на тестовых выборках по трем постановкам задач более чем 0.90 по ряду моделей и метрике F1-score - среднего гармонического по показателям точности и полноты. Также в модуле интерпретируемости моделей классификации изображений было добавлено 3 алгоритма: LIME, Grad-CAM, RISE, которые позволили собрать набор визуализаций по тестовым множествам датасетов. Подобные визуализации позволяют оценить степень корректности свидетельств, на основе которых модель проводит классификацию. 2. В рамках работы по второму направлению (таксономические ревизии сложных групп насекомых) мы завершили (или продвинули) ряд ”классических” таксономических ревизий. Эти ревизии важны, во-первых, как источник точных данных о видах для тренировки и тестирования нейронных сетей, так и как базовый массив информации по энтомофауне России, по заявленным в проекте модельным группам. И хотя, что закономерно на данном этапе, при выполнении этих ревизий мы еще не использовали методы связанные с искусственным интеллектом, в них мы реализовали инновационный потенциал путем применения молекулярных методов разграничения видов. Часть проделанной работы по данному направлению доведена до уровня законченных статей. По одной модельной группе проекта (жукам-стафилинидам, Staphylinidae) нами закончена и сдана в печать исчерпывающая таксономическая ревизия рода Oxyporus для фауны России, в которой впервые удалось найти надежные видовые признаки для трудноразличимых видов методами интеграционной систематики. Совпадение результатов по обоим альтернативным маркерам позволило нам сделать однозначный вывод о том, что более широкое применение практичного маркера СО1 в этом и других близких родах стафилинид существенно ускоряет и упрощает работу по точной видовой диагностике. По второй модельной группе, клопам-слепнякам (Miridae), выполнена и принята к печати ревизия подсемейства Bryocorinae фауны Европейской России и Закавказья. На исследованной территории, равно как и в фауне России в целом, группа представлена шестью родами и включает как виды коммерчески выращиваемые для биологического контроля численности вредителей в теплицах, так и виды которые интенсивно исследуются в качестве потенциальных агентов биологического контроля. Несмотря на значительное хозяйственное значение этой группы, надежное определение видов по имеющимся сводкам не представлялось возможным, а число обитающих в России видов было известно лишь приблизительно. Подготовленная нами статья решила эту проблему. Она может быть использована не только специалистами-систематиками, но и практиками, работающими в области интегрированной защиты растений. 3. Третье направление проекта, а именно эффективная каталогизация фауны насекомых России, является как базовым элементом для исследований заявленных в проекте, так и их кульминацией. Удобный для широкого круга пользователей интернет-портал должен объединить разные массивы информации о видовом разнообразии фауны России, полученные в том числе и с применением инновационных методов исследований. В связи с этим, за подотчетный период мы провели следующие работы в этом кластере. Закончена работа над видовым каталогом по миридам России (698 видов), который не только дополнен новыми данными но и переведен из малоэффективного текстового формата в формат реляционной базы данных на основе которой создается интернет портал. Это стало возможным за ограниченный период времени, так как к началу работ по проекту по миридам у нас уже имелся в наличии частично опубликованный и частично в стадии традиционной текстовой рукописи, каталог. В процессе этой работы была проанализирована вся фаунистическая литература, то есть более тысячи источников, опубликованная к 2020 году. Также, все литературные данные по распространению в рамках создаваемого нами электронного каталога были обобщены в соответствии с административно-территориальным делением России, при этом географически обширные регионы, такие как Якутия, Красноярский край и Хабаровский край, подразделены на дополнительные подобласти. В ходе перевода каталога мирид в форму интернет-портала данные из традиционных каталогов были конвертированы в формат электронной таблицы с помощью программ Excel и R и проверены вручную. После этого таблицы были загружены в электронную базу данных. Параллельно, в созданную базу данных внедряются данные о распространении каждого вида на основе этикеточных данных коллекции ЗИН РАН. Для второй модельной группы, жуков-стафилинид, никакого современного каталога для фауны России не было. Поэтому, на основе имеющихся каталогов по мировой и Палеарктической фауне стафилинид был составлен предварительный каталог фауны России путем экстракции всех видов которые были когда-либо, в том числе без четко подтвержденных данных, указаны для нашей страны (более 3000 видов). Параллельно, была составлена обширная библиография, сопутствующая этому каталогу. Оба массива данных были представлены в виде электронных таблиц импортированных в базу данных для дальнейшей работы, а именно более детальной проверки и детализации данных по систематике и распространению видов на территории России. Для технической реализации портала на базе сервера ЗИН РАН в самом начале работы над проектом мы провели сравнительный анализ имеющихся систем и подходов к решению таких задач и предварительные переговоры с несколькими разработчиками. В итоге, мы выбрали систему (Biodiversity data platform) Earthcape (www.earthcape.com) разработанную русскоговорящими программистами в Финляндии. Подобных систем созданных в России не было, тогда как Earthcape обладал всеми необходимыми модулями, которые оставалось лишь настроить под наши задачи. Знание русского языка программистами Earthcape тоже оказалось важно, так как в разработке портала необходимо комфортное обращение с русскими географическими названиями, русской литературой, данными этикеток и т.д. Для реализации нашего портала на базе Earthcape была создана виртуальная архитектура, в которую уже импортированы оба каталога (по миридам и стафилинидам). Начато их тестирование для усовершенствования основных модулей – поиска информации по разным запросам пользователей, представление разнообразных данных по видам в удобной форме, воспроизведение изображений и схематических карт распространения видов насекомых.

 

Публикации


Аннотация результатов, полученных в 2021 году
Как и на первом году выполнения проекта, наш коллектив работал над разработкой применения нейронных сетей для систематического изучения разнообразия насекомых России на основе оцифрованных данных. Также было продолжено таксономическое изучение модельных групп (Miridae и Staphylinidae) c упором на фауну России и внедрение современных технологий (в частности молекулярных методов видовой диагностики ) в эту практику с целью очень точного определения видовых границ необходимых для проверки результатов полученных нейронными сетями. Коллектив существенно улучшил цифровую инфраструктуру для такой работы, а именно продолжил развитие электронной базы данных (интернет портала) по этим группам в масштабах фауны России. Всему этому способствовали и проведенные в этом году экспедиции в разные регионы России. За второй год исследований нашим коллективом в общей сложности выдано (опубликовано, принято к печати, и сдано в печать) четыре научные статьи. Еще две статьи практически завершены, но пока не сданы в печать. Некоторые результаты второго года исследований доложены на профильных международных конференциях. На втором году проекта возросла роль и усилилось влияние работы молодых исследователей в нашем коллективе, которые уже приобрели существенный опыт. Главным достижением второго года стало завершение статьи по использованию машинного обучения для автоматического определения видов из таксономически наиболее сложного рода клопов-слепняков Adelphocoris. В этой статье в Systematic Entomology мы, используя экономически важный и полиморфный род клопов в качестве модельной группы 1) исследовали эффективность 11 сверточных нейронных моделей, наиболее часто используемых для классификации изображений, 2) проверили роль дисбаланса классов в оценке качества модели и 3) визуализировали интересующие области с помощью алгоритмов интерпретации LIME, Grad-CAM и RISE. Наши эксперименты показали высокое качество классификации с показателями F1-score в диапазоне от 0,94 до 0,99 для топ-5 моделей. Таким образом, нам удалось добиться высокой эффективности классификации CNN по фотографиям габитуса трудно различимых видов насекомых на основе коллекционных экземпляров с точностью экспертного уровня. Эта статья демонстрирует большой потенциал музейных коллекций насекомых для разработки алгоритмов глубокого обучения в области систематики насекомых с использованием доступного оборудования и методов. В этом же направлении была начата работа по формированию набора изображений видов для двух других таксономически сложных родов клопов-слепняков - Lygus и Orthocephalus. Как и в случае с клопами рода Adelphocoris достигнуты хорошие результаты в определении и видов жуков стафилинид рода Stenus с помощью нейронных сетей. Стенусы - это крупнейший род живых организмов. Даже в пределах локальной, хорошо изученной фауны определения Стенусов это большая проблема. На основе оцифрованных коллекционных экземпляров из коллекции ЗИН мы изучили эффективность нейронных сетей в определении видов Stenus 1) по фотографиям габитусов, 2) по фотографиям эдеагусов и 3) по совмещенным данным (т.е. фото и габитусов и гениталий). Проверка влияния альтернативного признака - изображений гениталий на качество классификации Stenus проводилась на основе сравнений в качества 11 моделей сверточных сетей с классовой гранулярностью замеров. т.е. оценка качества каждой модели представляла собой множество оценок качества классификации каждого вида в рамках тестовой выборки. Для сравнения использовалась метрика качества F1-score. Это масштабное исследование будет оформлено в статью на последнем году проекта. При разработке методов машинного определения видов насекомых по фенотипам мы обратили внимание что в последние годы вышло значительное число работ в области биоинформатики по обработке участков ДНК моделями машинного обучения. Поэтому, нами проведен анализ этих литературных данных который показал успешные результаты следующие архитектуры нейронных сетей: сверточные сети, рекуррентные сети, комбинированные модели из сверточных и рекуррентных слоев, модификации рекуррентных сетей с механизмом внимания. Также мы пришли к выводу что в условиях ограниченного объема данных, постановка задачи разделения видов инструментами машинного обучения с применением участков ДНК видится избыточной. Во-первых, текущие алгоритмы поиска гомологов выполняют данную функцию при наличии эталонов в базе данных. Во-вторых, современные средства выравнивания позволяют детектировать замены, различающие необходимые виды. Таким образом, при наличии успешного разделения видов существующими инструментами баркодинга, искусственная нейронная сеть, решая задачу классификации, способна исполнить роль верхнеуровнего словаря, что может быть выполнено более простыми детерминированными алгоритмами с подключением к базе данных. Сложности с которыми сталкиваются нейронные сети при определении клопов-слепняков не случайны. В частности, наша таксономическая работа по Lygus показала что на основе промеров не удалось разделить многие пары видов. Молекулярные филогении, основанные на маркерах COI и 16S rRNA по отдельности и на комбинированном наборе данных, показали, что есть две клады, которые отличаются друг от друга большим количеством замен. Одна из них включает виды, которые встречаются только в Палеарктике, а вторая включает виды с Голарктическим распространением. Однако внутри этих клад различия между видами либо очень малы (1-2 замены по каждому маркеру) или отсутствуют. Результаты работы по Lygus оформлены в виде статьи которая подана на рассмотрение в журнал Zoological Journal of the Linnean Society. На изучение возможных препятствий для работы нейронных сетей была направлена и проделанная работа по клопам-слепнякам из Orthocephalus. До того, как начать работу по разработке моделей для тестирования возможно ли разделение этих видов с помощью нейронных сетей, наш таксономический анализ на основе четырех митохондриальных и двух ядерных последовательностей показал, что действительно эти виды отличаются друг от друга. В итоге, по клопам подготовлена таксономическая ревизия рода Anapus (будет сдана в печать в ближайшее время), в которой в частности получены более 280 фотографий микроструктур на СЭМ и впервые использована конфокальная микроскопия для изучения гениталий самцов, созданы трехмерные реконструкции эдеагуса всех валидных видов. Подобная таксономическая ревизия проведена и по роду Europiella фауны Палеарктики, где Россия занимает значительную часть территории, но еще не оформлена в статью. В том же ключе разграничения близких видов прошла и таксономическая работа по второй модельной группе, жукам из семейства Staphylinidae. В частности завершена монографическая интегративная (с использованием морфологии и ДНК анализа) ревизия подрода Quedius s.str. в масштабах всей Голарктики которая велась международным коллективом с участием и руководителя данного проекта (АС). Эта работа закончена и принята к печати в Acta Entomologica Musei Pragae, журнал в открытом доступе оптимально приспособленный для публикации богато иллюстрированных таксономических монографий. Несмотря на то, что ревизия охватывает более широкий регион, территория России очень хорошо представлена в этой работе, как значительная и наименее изученная часть Голарктики. На основе анализа молекулярных и морфологических данных уточнены концепции всех видов в ревизии и уточнены особенно сложные границы между видами. С территории России получены особенно интересные данные о внутривидовой изменчивости некоторых видов, например Q. sundukovi и Q. uniclor. Выявлен ряд новых синонимов, в том числе с территории России. На основе анализа филогении и карт распространения, предложены биогеографические сценарии для ряда видов. На втором году проекта удалось существенно продвинуть таксономическую ревизию рода Philonthus, одного из крупнейших и часто встречающихся родов стафилинид в фауне России. На основе обобщения литературных данных составлен предварительный список видов Philonthus России. В частности были суммированы все публикации о Philonthus Европейской части России, что составило около 1000 отдельных записей базы данных. Результаты таксономической работы по жукам-стафилинидам коснулись не только видового уровня но и уровня более высоких систематических рангов. В статье опубликованной в журнале Journal of Zoological Systematics and Evolutionary Research проведен полный обзор макросистемы подсемейства Aleocharinae в свете имеющихся данных по филогении мега-разнообразного подсемейства стафилинид Aleocharinae. В обзоре подробно рассмотрены все 62 трибы признаваемые в современной классификации Aleocharinae на основе информации из 191 литературных источников. Для каждой трибы составлены таксономические диагнозы и где это возможно, сделан упор на монофилетические группы внутри или между существующими трибами еще не зафиксированными в системе. Такое упорядоченное представление макросистемы алеохарин оказалось очень полезным для организации видов по этой группе в нашем разрабатываем портале по фауне стафилинид России. Выбор классификации уже на данном этапе необходим для каталогизации фауны России в рамках интернет портала. Работа по изучению сложных видовых комплексов велась с применением молекулярных методов. В этом году основные силы были брошены на сбор и подготовку материала для молекулярной работы. В частности, в апреле-мае, строго по намеченному плану, проведена маршрутная автомобильная экспедиция по южным регионам России (Крым, Краснодарский и Ставропольский края, Калмыкия, Поволжье и Оренбургская область). В ходе экспедиции собрано более 2500 экземпляров клопов-слепняков (Heteroptera: Miridae), относящихся к более 100 видов и более 4000 экземпляров жуков Staphylinidae фауны юга России из нескольких сотен видов. Также был проведен ряд более коротких экспедиционных выездов в другие регионы России, в том числе дальняя поездка на Камчатку. Наряду с подготовкой материала по разным таксонам для экстракции ДНК на следующем году проекта, нам удалось получить новые данные для интегративной ревизии сложных групп видов в роде Quedius. Всего было сгенерировано 200 COI баркодов Quedius s. str. проанализированных методами кластерного и филогенетического анализа, при этом получены COI баркоды для всех видов Quedius s. str. обитающих на территории России. Во-вторых, получены COI баркоды для комплекса видов близких к Quedius obliqueseriatus обитающих на Северо-Западном Кавказе. Как выяснилось с помощью баркодирования, этот комплекс видов эндемичный для С-З Кавказа состоит из большего числа видов, все с крайне узкими ареалами и крайне тонкими морфологическими отличиями. Будет крайне интересно проверить работу нейронных сетей по таким вида на следующих этапах проекта. В процессе работы по изучению видовых комплексов методами интегративной систематики создан предварительный протокол экстракции ДНК и амплификации необходимых фрагментов (в основном COI) из обычных музейных экземпляров, которые были зафиксированы и хранились в неспецифических для сохранения ДНК условиях. Данный протокол - результат оптимизации уже существующего протокола экстракции который мы стали использовать наряду с разработанными нами новыми парами праймеров для амплификации нужных генов путем их деления на более короткие фрагменты ДНК. В плане работы над порталом, помимо неуклонного накопления данных, в этом году завершена миграция приложения EarthCape на технологически новую платформу Microsoft Blazor. Для этого было необходимо проведение ряда работ затрагивающих как ядро кода, так и кастомизации выполненные для проекта. После завершения миграции ядра приложения начаты работы по перенесению настроек пользовательского интерфейса и валидационных правил для каждого из подразделов проекта. Из за разницы между платформами, настройки будут проходить стадии отладки и внесения необходимых изменений на следующем году проекта. Новая платформа также потребует пересмотра некоторых решений в представлении разделов проекта пользователям. Процесс также включает в себя миграцию данных на новую структуру данных. В этом году мы начали популяризацию результатов проекта среди научного сообщества. Результаты интегративной ревизии жуков-стафилинид рода Oxyporus фауны России выполненной на первом году проекта, были доложены в виде устного доклада на ежегодной конференции Американского Энтомологического Общества (Entomological Society of America Annual Meeting). Результаты молекулярного исследования по комплексу видов близких к Quedius obliqueseriatus были доложены в виде устного доклада на ежегодной международной конференции Ассоциации Молодых Ученых Систематиков (Young Systematists Forum).

 

Публикации

1. Намятова А.А., Тыц В.Д., Большакова Д.С. Integrative approach to the identification and delimitation of the trans-Palearctic Lygus (Insecta: Heteroptera: Miridae) species based on morphological characters, morphometrics and molecular data Zoological Journal of the Linnean Society, нет (год публикации - 2022)

2. Орлов И.А., Ньютон А.Ф., Солодовников А.Ю. Phylogenetic review of the tribal system of Aleocharinae, a mega-lineage of terrestrial arthropods in need of reclassification Journal of Zoological Systematics and Evolutionary Research, Early View (год публикации - 2021) https://doi.org/10.1111/jzs.12524

3. Попков А.А., Константинов Ф.В., Нейморовец В.В., Солодовников А.Ю. Machine learning for expert-level image-based identification of very similar species in the hyperdiverse plant bug family Miridae (Hemiptera: Heteroptera) Systematic Entomology, - (год публикации - 2022)

4. Хансен А., Брюнке А., Томсен П., Симонсен Т, Солодовников А. Revision of Quedius sensu stricto (Coleoptera: Staphylinidae) Acta Entomologica Musei Nationalis Pragae, - (год публикации - 2022)

5. Ангесом, Г., Сальницкая М., Солодовников А. A study of local endemism of Quedius obliqueseriatus rove beetle (Coleoptera: Staphylinidae) in the North-Western Caucasus of Russia Annual Systematics Association Young Systematists Forum, нет (год публикации - 2021)

6. Токарева А.С., Солоовников А.Ю., Константинов Ф.В., Брюнке А. Revision of Oxyporinae (Coleoptera: Staphylinidae) of Russian fauna: getting to the bottom of enigmatic fungivorous subfamily's taxonomy and biology Annual Meeting of Entomological Society of America 2021, Denver, Colorado, нет (год публикации - 2021)


Аннотация результатов, полученных в 2022 году
Основываясь на наших успешно разработанных моделях для автоматического определения таксономически сложных видов клопов-слепняков по их изображениям (https://rscf.ru/news/biology/kompyuternoe-zrenie/?sphrase_id=131492), коллектив проекта приступил к созданию приложения для автоматического определения видов клопов-черепашек рода Eurygaster по фотографиям внешнего вида. Группа клопов-черепашек включает опасных вредителей зерновых культур и такое приложение очень актуально для нужд защиты растений. Как основа для приложения, были созданы две модели архитектуры свёрточных нейронных сетей. Бинарная модель первого уровня определяет, похож ли в целом объект на входящем изображении на клопа-черепашку. В случае, если объект похож на Eurygaster, модель второго уровня предоставляет список видов и уровни уверенности для каждого из возможных видов. Этот подход дополнительно будет экономить мощности ресурса, размещающего такой сервис, что немаловажно. Для сглаживания так называемой проблемы «переуверенности», модели были откалиброваны с помощью метода температурного шкалирования. Суммарный объем изображений составил: 5983 Eurygaster и 83251 не Eurygaster, в который также был включен ранее опубликованный датасет сельскохозяйственных вредителей IP102. Выбранный технологический стек и кроссплатформенная направленность (Python, PyTorch, Docker) открывает возможность доступа пользователей к приложению, как с настольного компьютера, так и с мобильных устройств. В целом, созданное веб-приложение показало высокую точность работы, особенно, если фотографии сделаны строго сверху (в этом случае сохранены пропорции тела). Текущие результаты работы доступны по ссылке https://github.com/alexander-pv/eurygaster_app. По линии инвентаризации фауны России и таксономического исследования модельных групп насекомых для жуков-стафилинид впервые с 1960-х годов составлены определительные таблицы для родов для фауны нашей страны. Пока что эти ключи включают только рода отмеченные в Европейской России потому что для этой части нашей страны есть репрезентативные литературные данные по фауне. Из-за большой общности фауны разных регионов России эти определительные таблицы уже применимы и шире, но все же определитель будет вскоре дополнен небольшим количеством родов когда будут лучше проработаны коллекционные материалы по видам для регионов России для которых нет адекватных фаунистических данных. Готовые ключи опубликованы в рамках работы по обзору фауны открытых равнин юга Европейской части России. Другим значимым результатом года по жукам-стафилинидам стала опубликованная первая интегративная таксономическая ревизии подрода Quedius Stephens, 1829 sensu stricto которая охватила этот таксон в пределах всей Голарктики, где территория России составляет существенную часть. Интегративные ревизии, в которых в основе таксономических решений лежат как морфологические так и молекулярные данные пока еще редки для фауны России. По клопам-слепнякам основные таксономические работы проводились по родам Anapus и Lygus. Детальное исследование генитального аппарата самок и самцов видов рода Anapus позволило обнаружить признаки, позволяющие однозначно определять виды. Сформулированы диагнозы всех валидных видов и создан иллюстрированный определительный ключ для определения как по самцам, так и по самкам. Помимо таксономических новшеств обобщены данные по кормовым растениям и ареалам всех видов с учетом допущенных в прошлом ошибок определения. Разработана методика применения конфокальной микроскопии для исследований строения генитальных структур. Статья принята в печать в журнал Insect Systematics and Evolution. В опубликованной статье по роду Lygus проведенный филогенетический анализ выявил существенные проблемы с разделением видов, несмотря на то что описанные виды можно различать по морфологии. В частности, было установлено что некоторые экземпляры с морфологическими признаками Lygus gemellatus не формируют кладу с большинством представителей этого вида, а некоторые экземпляры L. rugulipennis при анализе маркера COI формируют клады с североамериканскими видами. Подобные результаты могут получаться из-за нескольких причин, которые друг друга не исключают. Во-первых, в каких-то случаях морфологические отличия могут оказаться внутривидовой изменчивостью. Во-вторых, виды могли разделиться недавно и накопилось еще мало замен для того, чтобы четко разделить виды по двум маркерам, которые использовались изначально. В-третьих, возможно наличие гибридов. В-четвертых, возможна гибридизация в прошлом. В-пятых, возможно присутствие внтуриклеточного паразита Wolbachia. Последние два фактора могут приводить к тому, что эволюционная история митохондрий не соответствует эволюционной истории видов. Интересные биологические вопросы связанные с проблемой вида в систематике насекомых выявленные в работе по роду Lygus определили дальнейшие эксперименты с поиском границ между видами с помощью машинного обучения. Такое объединение проблем биологии и машинного обучения закладывает основу работы на будущие годы, то есть направление которые мы и хотели простимулировать к развитию нашим ограниченным по времени проектом. Проведенные нами эксперименты с родом Lygus в этом направлении пока не закончены. Они заставляют предположить несколько сценариев. (1) Нейронные сети с высокой вероятностью отличают как морфологические группировки, так и монофилетические группы. (2) Нейронные сети лучше отличают морфологические группы, чем монофилетические. (3) Нейронные сети лучше отличают монофилетические группы, чем морфологические. В случае (3) можно будет сделать вывод, что нейронные сети можно использовать для подтверждения монофилетических групп, однако необходимо тестирование на большем количестве подобных таксономически сложных таксонах. Наконец, в сфере работы над интернет-порталом по фауне России полностью завершено создание электронной базы данных по клопам-слепнякам фауны России. По нашим данным, в пределах страны обитает 698 видов, для каждого из которых обобщены данные по распространению, кормовым связям и хозяйственному значению. Получены высококачественные фотографии (вид сверху, сбоку, этикетки) типовых экземпляров клопов-слепняков Зоологического института РАН (более 500 экземпляров). Разработан и апробирован удобный интерфейс базы данных, позволяющий быстро и минимизируя ошибки вводить, эксопртировать в разных форматах, а также анализировать данные. Ранее дигитализированные экземплярах (>100 000 экземпляров) импортированы в новую систему EarthCape. Дополнительно дигитализированы коллекции по группам, исследованным в рамках проекта (> 10 000 экземпляров). В целом, система готова, масштабируема и может служить основой для запуска полноценного веб-портала клопов-слепняков России. Подобная работа проведена и по жукам-стафилинидам, но из-за большего числа видов и, в отличие от клопов-слепняков, необходимости начинать все с ноля, каталог готов быть запущенным на портале, но с оговорками о некоторых пока еще существующих пробелах.

 

Публикации

1. Давлетшин Ш.З., Константинов Ф.В. Confocal laser scanning microscopy and three-dimensional reconstruction delimit species in a taxonomically challenging group: a revision of the plant bug genus Anapus Stål, 1858 (Heteroptera: Miridae) Brill, нет (год публикации - 2023)

2. И.Орлов, Р.А.Б. Лешен, Д.Жила, А. Солодовников Total-evidence backbone phylogeny of Aleocharinae (Coleoptera: Staphylinidae) Cladistics, Vol. 37: 343–374 (год публикации - 2021) https://doi.org/10.1111/cla.12444

3. Константинов Ф.В., Нейморовец В.В. Bryocorinae Baerensprung, 1860 (Hemiptera: Heteroptera: Miridae) of European Russia and the Caucasus: synopsis and key to species. Zootaxa, 4920(3): 301-338 (год публикации - 2021) https://doi.org/10.11646/zootaxa.4920.3.1

4. М.А. Сальницкая, В.А. Кривошеева, К.П. Воронова, А.А. Гебремескел, А.Ю. Солодовников Rove beetles of the open plains of the South European Russia: a review with the key to genera and annotated species checklist (Coleoptera: Staphylinidae) Кавказский Энтомологический Бюллетень, том. 18 (Приложение) 3-149. (год публикации - 2022) https://doi.org/10.23885/18143326202218S-3149

5. Токарева А.С., Константинов Ф.В., Брюнке А. Дж., Солодовников А.Ю. DNA-barcode and endophallus morphology delimit congruent species in a systematic revision of the oxyporine rove beetles of Russia (Coleoptera: Staphylinidae: Oxyporinae) Contributions to Zoology, 90(3): 344–407 (год публикации - 2021)

6. В.Д. Тыц, Ф.В. Константинов, А.А. Намятова Морфологическая матрица встречает молекулярные маркеры: комбинированные данные в реконструкции филогении клопов-слепняков трибы Halticini (Heteroptera: Miridae: Orthotylinae) Тезисы докладов XVI съезда Русского энтомологического общества, стр. 11 (год публикации - 2022) https://doi.org/10.5281/zenodo.6976546

7. Намятова А.А., Тыц В.Д., Большакова Д.С. Integrative approach to the identification and delimitation of the trans- Palearctic Lygus species (Heteroptera: Miridae: Mirinae) Abstracts of the 7th Meeting of the International Heteropterists' society, нет (год публикации - 2022)

8. Ф.В. Константинов, А.А. Попков, В.В. Нейморовец Автоматизированное определение видов с помощью сверточных нейронных сетей в таксономически сложных группах насекомых: достижения и перспективы Тезисы докладов XVI съезда Русского энтомологического общества, стр. 8 (год публикации - 2022) https://doi.org/10.5281/zenodo.6976546

9. Ш.З. Давлетшин Трехмерная реконструкция и конфокальная микроскопия в решении сложных таксономических проблем на примере рода Anapus (Heteroptera: Miridae) Тезисы докладов XVI съезда Русского энтомологического общества, стр. 58 (год публикации - 2022) https://doi.org/10.5281/zenodo.6976546

10. - Компьютерное зрение: нейронная сеть научилась определять виды вредителей лучше учёных Russia Today, - (год публикации - )

11. - Нейросети помогут специалистам различать очень близкие виды насекомых Пресс-служба РНФ, - (год публикации - )


Возможность практического использования результатов
Наш проект нацелен на исследование возможности применения машинного обучения для определения насекомых, в первую очередь важных для сельского хозяйства. Часто для опеределения видов нужны обширные знания в таксономии и морфологии, умение работать с мелкими морфологическими структурами, наличие хороших микроскопов, а частно и навыков в лабораторной работе и обработке молекулярных данных. Все это делает определение времязатратной и дорогостоящей процедурой. В каких-то случаях даже для профессиональных таксономистов определение конкретного экземпляра может быть нетривиальной задачей. Определение насекомых в прикладных сферах далеко не всегда качественно. Это может привести к серьезным ошибкам в выводах об экологии, распространении и пищевых предпочтениях конкретных видов, что принципиально важно для учета вредителей и карантинных мер. В нашем проекте мы продемонстировали, что машинное обучение можно использовать для определения вредителей, и оно дает точность соспоставимую с результатами определения специлистами. Внедрение подобных технологий и конструирование программ для определения насекомых с простым интерфейсом, подобных тому, что сделано в ходе нашего проекта, может быть заделом для более точного мониторинга, и, как следствие, для создания более эффективной борьбы с вредителями.