В 2016 г. Организация Объединенных Наций объявила 2020 г. Международным годом охраны здоровья растений (МГОЗР). Среди множества социальных проблем ООН решила выделить здоровье растений как одну из самых насущных проблем нашего времени. Вы когда-нибудь задумывались, почему?

Растения составляют 80% пищи, которую мы едим, и производят 98% кислорода, которым мы дышим. Мне трудно обобщить различные области, на которые влияют растения, в одном предложении. От кормления растущего населения мира до защиты биоразнообразия и экосистем значение растений огромно! Так же как и защита растений. В эпоху меняющегося климата, повышения температуры и голодной саранчи сохранение растений как никогда важно.

Шаг 1 заключается в определении состояния здоровья растений. Чтобы сделать это проще и быстрее, специалисты Brainpool вместе с Omdena придумали интересную задачу с искусственным интеллектом.

Постановка проблемы:

Проект направлен на создание автоматической модели прогнозирования здоровья растений с использованием мультиспектральных и тепловых данных, полученных с дронов. Команда Brainpool использовала поле для гольфа в качестве идеального набора данных для разработки такой модели, поскольку на поле наблюдается высокая степень вариации влажности/солености. Кроме того, датчики уже являются частью наземной инфраструктуры, что облегчает сопоставление результатов.

Поле для гольфа находится в динамичной среде, в которой проявляются многочисленные явления и эффекты, связанные с сезонами, погодными условиями, наличием таких ресурсов, как вода, питательные вещества (удобрения) и т. д. Поддержание газона в оптимальном состоянии круглый год является сложной задачей.

Таким образом, наша цель состоит в том, чтобы использовать мультиспектральные изображения с дронов для точного определения проблемных областей на поле, оптимизации потребления воды и, таким образом, экономии времени, которое раньше уходило на ручное сканирование дерна на земле.

Предыстория:

Вскоре после стартового звонка у большинства из нас было смутное представление о том, как выглядела конечная цель и что мы должны были делать с набором данных в руках. Набор данных состоял из мультиспектральных снимков с дронов (апрель — октябрь), охватывающих большую часть года, охватывающих разные сезоны и погодные условия. Семь диапазонов были захвачены с помощью сенсоров Altum от MicaSense, включая синий, зеленый, красный, красный край, ближний инфракрасный, тепловой, прозрачный. Кроме того, полевые разведчики предоставлены данные исследования влажности почвы.

Прежде чем вы прочитаете вперед и окажетесь неудобным с техническим жаргоном. Позвольте мне быстро определить несколько терминов, которые мы будем использовать снова и снова.

NDVI: Нормализованный разностный индекс вегетации рассчитывается с использованием простого соотношения полос ближнего инфракрасного (NIR) и красного цветов. Диапазоны от -1 до +1. Более высокие значения указывают на здоровую растительность. Более низкие значения указывают на голую почву, камни и т. д.

DEM: цифровая модель высоты, помогающая понять высоту.

Водный стресс: области на поле для гольфа, испытывающие стресс из-за нехватки воды.

Затопление: участки поля для гольфа, насыщенные водой.

Фервей: часть поля для гольфа с короткой травой, расположенная между ти и грином. Фервеи — это наши области интересов, а также «дыры».

Подход:

Интересно понять, как со временем эволюционировал наш подход к решению этой проблемы. Первоначально мы рассматривали проект через призму проблемы контролируемого обучения. Из-за неоднозначных результатов и субъективного характера интерпретации данных мы решили вместо этого автоматизировать маркировку изображений и использовать неконтролируемые алгоритмы обучения, которые могут точно предсказывать проблемные области на земле. Наш звонок Крейгу помог нам вернуть проект в нужное русло.

Крейг — управляющий загородным гольф-клубом Cypress Lakes, обладающий обширными знаниями в этой области. Он был предельно ясен в отношении результатов и того, что он ожидал от нас в конце проекта. Он хотел, чтобы модель ИИ указывала ему на регионы с дефицитом и избытком воды, чтобы он мог оптимизировать ирригацию и сэкономить время на ручной проверке. Таким образом, учитывая сложность маркировки, мы решили сместить акцент на борьбу с засухой, используя неконтролируемый подход.

Кроме того, статья состоит из 3 основных технических разделов:

  1. СМИ
  2. Пороговая модель
  3. Модель кластеризации

Оценка SMI

Индекс влажности почвы (SMI) объединяет тепловые данные с нормализованным индексом различий растительности (NDVI). Другими словами, это способ привязать тепловые данные к участкам с растительностью. Он использовался в этом проекте из-за его потенциала для выявления заболоченных и подверженных водному стрессу районов, поскольку заболоченные районы должны иметь высокую влажность почвы, а районы, подверженные водному стрессу, должны иметь низкую влажность почвы.

SMI был рассчитан с использованием красного, ближнего инфракрасного и теплового диапазонов данных, собранных дронами над исследуемой территорией. Теория гласит, что сухой край и влажный край можно рассчитать по диаграмме рассеяния зависимости температуры от NDVI на основе приведенной ниже методологии:

SMI = (Tmax — Ts)/(Tmax — Tmin)

Tmax = a1NDVI + b1 теплый/сухой край

Tmin = a2NDVI +b2 холодный/влажный край

где Ts — наблюдаемая температура поверхности (°C) в данном пикселе. Tmin — это наблюдаемая минимальная температура поверхности для данного NDVI, которая определяет мокрую кромку; Tmax — максимальная наблюдаемая температура поверхности для данного NDVI; а «a» и «b» определяют сухой край на основе линейной подгонки к данным.

Методология

Сценарии были написаны с использованием:

  • Геопространственные и научные библиотеки Python: rasterio, geopandas, pandas, scikit-learn, scipy и numpy.
  • Zonal_stats из растровой статистики
  • QGIS

Конвейер SMI состоит из двух компонентов:

  • Конвейер оценки SMI (см. рис. 2)
  • Конвейер проверки SMI (см. рис. 3)

Конвейер оценки SMI

  • NDVI, тепловые полосы: растровая сетка NDVI и тепловая сетка (в градусах Цельсия) являются входными данными.
  • Обрезать по интересующим объектам: обрезать входы в воду, грины, площадки-ти и фервеи.
  • Downsample: растровые сетки уменьшаются, чтобы сгладить ненужный шум в данных.
  • Диаграмма рассеяния для расчета сухих и влажных краев: создайте диаграмму рассеяния зависимости температуры от NDVI. На основе этой диаграммы рассеяния данные группируются, сортируются и для каждого интервала температуры рассчитывается 95-й процентиль. Используя линейную регрессию, точки 95-го процентиля в объединенных диапазонах температур используются для создания сухого края. Точки 5-го процентиля используются для создания мокрой кромки.
  • SMI: выходная растровая сетка SMI экспортируется в формате .tif.

Конвейер проверки SMI

Конвейер проверки SMI создает диаграмму рассеяния прогнозируемого SMI по сравнению с фактической влажностью почвы с показателями корреляции.

  • Входные данные: SMI и полевые данные. Оба были получены примерно в то же время, когда был получен снимок с дрона.
  • Средний SMI: средние значения ячеек SMI вокруг точек полевых данных, чтобы сгладить изменчивость точного местоположения. Проекция сетки SMI была WGS84, в длинных градусах широты, радиус области для сглаживания должен быть преобразован из метров в десятичные градусы. В этом районе исследования радиус 0,5 м составлял 0,000005 град.
  • Диаграмма рассеяния проверки SMI: создает диаграмму рассеяния усредненных значений SMI по сравнению с точками полевых данных с линией 1:1. Точки окрашены в зависимости от типа (фервей, грин, тройник) и отображаются значения R и R-квадрата.

Оценка

Результаты обоих трубопроводов, оценка и проверка SMI, были проверены с помощью снимков с беспилотников и полевых данных, собранных на поле 1 (скважины 2–8).

На диаграмме рассеяния для зависимости температуры от NDVI сухой край (также называемый теплым краем) и влажный край (также называемый холодным краем) включают диапазон точек данных. В 16.06.2021 температура воды была прохладной, а температура некоторых зеленых насаждений приближалась к 0°C. Сухая граница была расширена на значение 5, чтобы включить в него зеленые растения с высоким значением NDVI.

На карте от 16.06.2021 посевная площадь правильно показывает водоемы синим цветом, что указывает на значение SMI, равное 1. На фервеях оценки SMI показаны в диапазоне 0,5–0,7, а зеленым цветом ошибочно сильно варьируются от 0,3 до 0,9.

Используя результаты проверки SMI, зеленые имеют наибольший разброс прогнозируемых значений, хотя можно было бы ожидать, что они будут иметь более узкий диапазон.

Результаты этого анализа свидетельствуют о плохой корреляции между прогнозом SMI и наблюдаемой влажностью почвы с данными зонда Field Scout. Это может быть связано с многочисленными факторами. Одним из них может быть калибровка температурного диапазона температуры поверхности по температуре грунта Field Scout. В этом примере зелени на отверстии № 2 NDVI не измеряется в полевых условиях, однако NDVI на основе дрона находится в ожидаемых диапазонах от 0,6 до 1, однако зонд измерил температуры 5 и 6 ° C, а тепловой диапазон был колеблется от 1,5°C в тени деревьев до 21°C. Влажность почвы, измеренная зондом, варьировалась от 25% (0,25) до 40% (0,4), тогда как результирующий прогноз SMI имел значения от 0,1 до 0,8 SMI. Может ли плохой прогноз быть результатом несоответствия температуры/температуры?

Модель на основе порога

В скрипте использовались геопространственные и научные библиотеки Python: rasterio, geopandas, pandas, scikit-learn, scipy и numpy.

Модель включает следующие этапы (см. рис. 9):

  • Downsample: изображения уменьшаются в разрешении, чтобы сократить время обработки.
  • Изменение масштаба: изображения масштабируются, чтобы на этапе полигонизации можно было идентифицировать пиксели с интервалом 1 для индивидуальной классификации.
  • Изображения NDVI: от [-1 до 1] до [0 до 30]
  • Тепловые изображения: от [0 до 382,35] до [0 до 800]
  • Маскирование: путем применения маски из изображений извлекаются требуемые области интереса.
  • Полигонизация: замаскированные изображения преобразуются в векторный формат для создания геометрии.
  • Пороговое значение: пороговые значения оцениваются на основе ROI в соответствии с критериями:
  • Нездоровый: все значения ниже третьего квантиля из точек данных NDVI оцениваются как нездоровые.

  • Водный стресс: все значения выше третьего квантиля по тепловизионным изображениям оцениваются как водные.

  • Заболоченные: как NDVI, так и тепловые изображения имеют пороговое значение для выявления нездоровых и подверженных термическому заболачиванию областей соответственно. Затем обе геометрии комбинируются с глубиной, чтобы найти области, обычно идентифицируемые как заболоченные.

Результаты

Результаты, полученные с помощью этой модели, были оценены с помощью информации, предоставленной суперинтендантом поля для гольфа.

Идентификация ROI достигается путем применения этой модели на уровне пикселей изображений дронов.

На рис. 10 показаны выявленные заболоченные участки (справа) на фарватере 2, которые соответствуют заметным коричневым областям, отображаемым на RGB-изображении слева.

На рис. 11 (справа) видны выявленные зоны водного стресса, соответствующие темно-красным областям на тепловом изображении (слева).

На рис. 12 показаны средние пороговые значения для термического слоя в зимний и осенний сезоны. Этот шаг должен был проверить тенденции в выборе порога. Кривые «максимальная температура» и «минимальная температура» показывают среднюю максимальную и минимальную температуру на изображении для каждой Лунки в течение сезона. Кроме того, кривая «среднесезонная температура» представляет зарегистрированную среднюю дневную температуру. Наконец, можно заметить, что пороги «среднего водного стресса» и «переувлажнения» всегда остаются между минимальным и максимальным температурным диапазоном.

Модель кластеризации

Скрипт кластеризации использовал геопространственные и научные библиотеки Python: geopandas, gdal, scikit-learn и numpy.

Было проведено несколько экспериментов по моделированию с использованием неконтролируемых методов, таких как кластеризация DBSCAN и K-Means. Мы решили использовать K-means, так как DBSCAN дал неудовлетворительные результаты.

Модель проходит один фарватер за раз. В окончательной модели мы используем NDVI, тепловые слои и наклон. Уклон рассчитывается на основе слоя ЦМР и является полезным атрибутом, который дает представление о более плоских и более крутых участках трассы. Участки в нижней части наклонного склона более подвержены заболачиванию.

Как видно из пайплайна, модель включает следующие этапы:

Маскирование растра с использованием геометрии фарватера для выделения областей интереса.

Фильтрация. Точки данных фильтруются по диапазонам значений NDVI и термических характеристик, чтобы удалить выбросы и сосредоточиться на более изменчивом распределении NDVI в среднем диапазоне.

Масштабирование выполняется с помощью библиотеки обучения scikit, чтобы было удобно формировать кластеры.

Кластеризация. Точки группируются с использованием алгоритма K-средних с k=4. Однако метод локтя дал k=3 как оптимальное количество кластеров для некоторых фервеев. Наше требование заключалось в выявлении 4-х проблемных зон на поле. Кроме того, оптимальное количество кластеров варьировалось для разных фервеев в зависимости от различий в значениях полос.

Наша визуальная оценка отдавала предпочтение более градуированным результатам и исключала слишком маленькие или слишком большие кластеры.

Постобработка включает еще два шага:

  1. Сито используется для удаления зашумленных незначительных кластеров, которые не представляют никакой ценности. Алгоритм удаляет сгруппированные области, которые инкапсулируют количество пикселей меньше заданного порога. Например, следующие изображения сравнивают исходное сгруппированное изображение (слева) с изображением, отфильтрованным с порогом 500 (правое изображение).

2. Полигонизация: просеянные кластеры преобразуются в векторный формат для более удобного взаимодействия с пользовательскими модулями.

Результаты

Результаты кластеризации модели проверяются на заболоченных участках, ранее выявленных на встрече с суперинтендантом. На следующем изображении показаны результаты кластеризации от 17 июня.

Эти результаты отображают сбалансированные размеры кластеров и пространственное распределение. Он становится функциональным инструментом суперинтенданта, который быстро выделяет области, требующие более тщательного осмотра. Пространственное распределение класса также дает представление о возникающих закономерностях.

Классы с 0 по 3 в кластеризованных выходных данных сортируются на основе NDVI. Как правило, это подразумевает тот же порядок прогресса в общем состоянии здоровья растений.

Мы также получаем центроиды кластера для каждой дыры. Мы можем дополнительно получить представление о работе моделей кластеризации, проверив центроиды кластеризованного поля. На следующем рисунке показаны значения центроидов для лунок с 1 по 8 в 2021–6–16 годах. Слой NDVI имеет самый высокий вес кластеризации, поэтому его центроидные значения более разбросаны, чем два других канала.

Ограничения и область применения в будущем:

Как обсуждалось ранее, характер цели проекта и имеющиеся данные оставляли место только для качественной оценки. Таким образом, выполнение следующей работы в ближайшее время может быть выгодным:

  • Более формализация цели с помощью конкретных данных наземной истины
  • Сбор дополнительных данных (по крайней мере, за весь год)
  • Использование сетки SMI в качестве входных данных для моделей Threshold & Clustering
  • Захват большего количества аспектов системы
  • Запишите конфигурации водяных дождевателей/количество поливов
  • Наземные датчики влажности почвы
  • Захват информации с более высокой частотой

Заключение

Пытаясь автоматизировать прогнозирование здоровья растений и оптимизировать потребление воды в поле, мы провели обширные исследования различных подходов. Методы обучения с учителем оказались неэффективными, поэтому были использованы алгоритмы без учителя.

Окончательным результатом проекта являются три модели:

  • Оценка SMI методом треугольника
  • Пороговая модель для выявления водного стресса и заболачивания
  • Модель кластеризации K-средних для кластеризации общего состояния здоровья на каждой лунке поля

Помимо изучения инструментов и технологий, используемых в этом проекте, мы поняли, как эффективно сотрудничать в команде, проводить мозговые штурмы, задавать важные вопросы и сотрудничать, чтобы объединить усилия в разных часовых поясах.

Бесспорно, опыт, который мы никогда не забудем, но всегда будем дорожить!

Примечание. Первоначально эта статья появилась в блоге Omdena.

Привет замечательный читатель👋

Спасибо за чтение. Это была моя первая попытка написать техническую статью 😅

Я надеюсь, что вы сочли полезным! :)

Я также веду ежемесячный информационный бюллетень, рассмотрите возможность подписки! 💌

Кроме того, вы также можете подписаться на меня в Instagram, LinkedIn и Medium.

Я обязательно делюсь там интересным контентом ✨

Хорошего дня! 🌻

Пока и ура 🤗