КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер проекта 23-74-01050

НазваниеОценка и нормирование качества почв на основе методов машинного обучения и больших данных

Руководитель Огородников Сергей Сергеевич, Кандидат биологических наук

Организация финансирования, регион федеральное государственное бюджетное образовательное учреждение высшего образования "Московский авиационный институт (национальный исследовательский университет)" , г Москва

Конкурс №84 - Конкурс 2023 года «Проведение инициативных исследований молодыми учеными» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными

Область знания, основной код классификатора 04 - Биология и науки о жизни; 04-108 - Почвоведение

Ключевые слова почвы, машинное обучение, искуственный интеллект, нейронные сети, спектроотражательные характеристики, показатели плодородия, прогнозирование, данные дистанционного зондирования, космические снимки

Код ГРНТИ68.05.29


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Проект направлен на решение фундаментальной научной задачи на стыке почвоведения и информатики, заключающейся в выявлении взаимосвязей между спектроотражательными характеристиками почвы и растительности, факторами почвообразования и показателями плодородия почв с помощью методов машинного обучения. Объем информации в мире неуклонно растет. Повсеместно возникают масштабные базы данных (Big Data). Содержащаяся в них информация обрабатывается с помощью методов искусственного интеллекта, в том числе машинного обучения. Существующие в настоящее время базы почвенных данных невелики. Так, глобальная база ландшафтных и почвенных данных «SOTER» занимает менее 10 Mb, а Гармонизированная всемирная база данных о почвах 44 Mb. При этом рост подобных массивов информации имеет огромный потенциал. По данным международных исследований, одно растение кукурузы за период вегетации генерирует 0,5 kb данных. Актуальность проекта определяется необходимостью создания баз Big Data в почвенно-экологических исследованиях и интеграции в систему оценки качества почв методов искусственного интеллекта. Использование методов машинного обучения находит своё отражение в исследованиях учёных из разных стран. Наблюдается ежегодный рост публикаций в WoS, посвященных применению искусственного интеллекта для оценки сельскохозяйственных культур. Если в 2015 году таких публикаций было 97, то в 2018 уже 328. Россия существенно отстает от других стран по публикационной активности в данной сфере. Основное внимание в опубликованных работах уделено построению цифровых карт отдельных почвенных свойств. Вопросам поиска взаимосвязи между спектроотражательными характеристиками почвы их свойствами и факторами почвообразования методами машинного обучения на основе больших данных (Big Data) уделено недостаточно внимания. Между тем решение этой задачи позволит эффективно прогнозировать урожайность сельскохозяйственных культур и предусматривать различные способы обработки и мелиорации для почвенных ареалов различной степени продуктивности, что представляет значительный интерес для сельскохозяйственного производства. Проект позволит глубже интегрировать методы машинного обучения как в фундаментальные исследования, так и в практику сельскохозяйственного производства. Реализация проекта позволит обобщить имеющиеся подходы к использованию искусственного интеллекта в почвоведении для целей оценки и нормирования качества почв. Создать базу данных спектроотражательных характеристик почвы и растительности, а также сведений о почвенных свойствах и факторах почвообразования для территории Куркинского района Тульской области. Разработать методологию определения зон продуктивности почв по данным спектроотражательных характеристик почвы и растительности. Конечным продуктом станет выявление фундаментальных закономерностей между спектроотражательными характеристиками растительного покрова, показателями плодородия почв и факторами почвообразования. На их основе будет создана программа, прогнозирующая значения индексов NDVI в зависимости от показателей плодородия и факторов почвообразования. В программе будут реализованы методы машинного обучения (вероятнее всего, метод нейронных сетей, как наиболее эффективный). Руководитель проекта обеспечит патентную защиту полученных результатов, которые могут быть интегрированы в практику оценки почв и управления земельными ресурсами при проведении оценки кадастровой стоимости, установлении баллов бонитета, создании карт агропроизводственных группировок. Данный проект – один из первых опытов системной интеграции методов искусственного интеллекта, в том числе машинного обучения в почвенно-экологические исследования.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


 

Аннотация результатов, полученных в 2025 году
• Полевые работы и химические анализы Исходный полигон в Тульской области был заменён на 60 000 га сельхозугодий Приморского края: регион лишён актуальных агрохимкарт и обладает муссонным климатом, что позволило проверить дистанционные методы на контрастном фоне. Для планирования маршрутов создан модуль, оптимизирующий ячейки сетки (10 га) по минимуму дисперсии NDVI при одновременном учёте рельефа; такая «проворотно-сдвижная» схема охватила все спектральные градиенты и сократила протяжённость треков на 27 %. На местности из каждой ячейки отбирали десять кернов (0–25 см), объединяя их в смешанную пробу; получено 6 000 образцов, что в 20 раз выше требований проекта. В аккредитованной лаборатории определены подвижные фосфор и калий, гумус, аммонийный азот, pH и др.; среднее расхождение дубликатов 2,7 % и 0,04 pH-ед., что втрое лучше ГОСТ 8.610-2012. Сформирована таблица показателей. Получен крупнейший в России массив пар «спектр – химия» для муссонных агроландшафтов. • Формирование цифрового датасета Координаты проб сопоставлены со снимками Sentinel-2 L2A (+/-5 суток, отсутствие теней/облаков), для которых рассчитано множество спектральных индексов. Из SRTM извлечены морфометрические параметры рельефа, а из CHELSA – климатические переменных. Специальный алгоритм расширил признаки до 1 384 столбцов (полиномы II порядка, разности, отношения); признаки с > 10 % пропусков удалены, выбросы (3,5 %) исключены методом Isolation Forest. Трёхступенчатый фильтр отобрал 10 оптимальных переменных для каждой химической цели. Балансировка SMOTE-ENN выровняла диспропорцию спектральных классов (с 57/2 % до 34/6 %). • Обучение и сравнение ИИ-алгоритмов Данные разделены 85/15 % (train/holdout). Обычные модели дали недостаточную точность (R² ≤ 0,64), поэтому реализован многоуровневый ансамбль: на базовом слое – случайный лес, градиентные бустинги, опорные векторы и др.; их прогнозы вместе с исходными признаками подаются в малую нейросеть-метамодель. Обучено более 100 комбинаций, затем из которых выбрано 10 лучших и собрана итоговая метамодель. На кросс-валидации гумус предсказывается с R² 0,84 (RMSE 0,23 %), pH с R² 0,81 (RMSE 0,18). На отложенной выборке снижение R² гумуса всего 0,04, что подтверждает высокую обобщаемость. SHAP-анализ показал, что каналы B02-B04-B08 и вегетационные индексы NDVI, MSAVI дают свыше половины информативности; существенный вклад (≈ 14 %) вносят микрорельеф и осадки августа. Установлено, что сезон съёмки (голая почва или пик вегетации) не оказывает принципиального влияния: отдельные модели, обученные на каждом сезоне, обеспечивают сопоставимую точность, позволяя картировать плодородие круглый год. • Программный комплекс «снимок → карта» Разработана трёхуровневая система. Нижний слой (C++) автоматически скачивает сцены, считает индексы и записывает данные в NoSQL-хранилище. Средний слой (Python) управляет экспериментами и выполняет инференс; верхний слой – веб-портал с REST-API и интерактивными картами. Сервисы связаны gRPC и разворачиваются от одного ПК до кластера Kubernetes. Один сервер (14 ядер + GPU) обрабатывает 60 000 точек за 18 мин; кластер из 4 узлов – за 5 мин. Юнит-покрытие 82 %, SLA демо-стенда 99,6 %. Готовится патент на комплекс дистанционной оценки химического состава почв.

 

Публикации

1. Лебедев И.И., Огородников С.С. Machine learning for predicting crop yields Quality Assurance and Safety of Crops & Foods (год публикации - 2026)

2. Огородников С.С., Лебедев И.И., Огородникова С.В. Determination of the organic matter content in the soil based on remote sensing data Quality Assurance and Safety of Crops & Foods (год публикации - 2026)

3. Лебедев И.И. Machine learning for chemical-humus correlation in soil BIO Web of Conferences, BIO Web of Conferences 113, 04008 (2024) (год публикации - 2024)
10.1051/bioconf/202411304008