Результаты показывают, что модели, основанные на генерирующих состязательных сетях, лучше, чем сверточные нейронные сети, при классификации классов земного покрова за пределами обучающего набора данных.

Автор: Хамед Алемохаммад, исполнительный директор и главный специалист по обработке данных, и Адитья Кулкарни, бывший стажер по машинному обучению в Radiant Earth Foundation

Во многих приложениях контролируемого машинного обучения (ML), которые используют наблюдения Земли (EO), мы полагаемся на наземные опорные данные для генерации данных для обучения и проверки. Эти справочные данные являются строительным блоком этих приложений и требуют географического разнообразия, если кто-то стремится развернуть модели в различных географических регионах.

Однако сбор наземных справочных данных - это обширный процесс, который крайне редко встречается в отдаленных районах, которые больше всего выиграют от использования ЭО. Следовательно, помимо наших общих усилий по созданию и публикации высококачественных наборов обучающих данных для этих приложений, нам необходимо разработать инновационные методы для лучшего использования ограниченных существующих наземных справочных данных.

В этом году мы получили грант от Фонда Билла и Мелинды Гейтс в рамках призыва к действию на Ежегодном собрании Grand Challenges 2019 года для изучения использования генеративных состязательных сетей (GAN) для решения проблемы нехватки обучающих данных для приложений сельскохозяйственного мониторинга. Этот совместный проект с нашими сотрудниками Эрнестом Мвебазе из Google AI Accra и Дэниелом Нортрупом из Benson Hill направлен на использование GAN в качестве 1) замены общих моделей классификации, таких как сверточные нейронные сети (CNN), и 2) инструмента для создания синтетических наборы данных для обучения.

Эта серия блогов, состоящая из двух частей, представит наш проект и первые результаты по использованию GAN с мультиспектральными спутниковыми изображениями среднего разрешения Sentinel-2.

Генеративные состязательные сети (GAN)

Представленные Яном Гудфеллоу в 2014 году, GAN представляют собой генеративные модели классов, состоящие из генератора, модели генератора и дискриминатора. Модель генератора использует шум в качестве входных данных и пытается сгенерировать изображения, похожие на реальные, чтобы «обмануть» дискриминатор. В то же время дискриминатор пытается учиться на реальных данных и определять изображения, созданные генератором, как «фальшивые» (рис. 1).

Во время обучения модели генератора и дискриминатора постепенно учатся создавать реалистичные изображения, похожие на предоставленные им реальные изображения. Несколько примеров этой техники показали многообещающие результаты в изучении закономерностей в реальных данных (например, изображения на веб-сайте thispersondoesnotexist.com, отображающие снимки головы, созданные с помощью модели GAN).

Одно из приложений GAN - преобразование изображения в изображение. В этом приложении мы стремимся преобразовать входное изображение в другое изображение с другим распределением. Например, можно использовать это, чтобы изменить цветовую композицию входного изображения или изменить сцену с дневного на ночное время. Одним из полезных приложений преобразования изображения в изображение является сегментация изображений. В этом случае целевое изображение является однополосным слоем сегментации входного изображения.

В то время как исходный документ Преобразование изображения в изображение демонстрировал перевод изображений базовой карты Google на карту Google, мы впервые применяем эту технику к изображениям с пространственным разрешением 10 м от Sentinel-2 для задачи классификации земного покрова (LC). .

Дизайн исследования

На этом первом этапе проекта мы использовали изображения Sentinel-2 вместе с метками LC из Национальной базы данных по земному покрову (NLCD) в США для тестирования нашей модели. Поскольку данные NLCD доступны для всех США, это позволяет нам создавать отдельные наборы данных для обучения и тестирования и оценивать производительность нашей модели GAN по сравнению с моделью CNN. Обе модели должны будут оценить класс LC для каждого пикселя в изображении 256 x 256 как проблему сегментации. На следующих этапах этого проекта мы будем использовать этот метод для оценки GAN в географически различных регионах Африки, а также для классификации типов культур.

Мы создали набор обучающих данных из безоблачных изображений Sentinel-2 в течение мая-июня 2016 года на континентальной части США и использовали классы NLCD LC 2016 в качестве меток. Для этого эксперимента мы используем только 10-метровые диапазоны от Sentinel-2, а именно красный, зеленый, синий и ближний инфракрасный (NIR). Точно так же мы создали тестовый набор данных из других регионов континентальной части США, но с аналогичными классами LC. Всего в набор обучающих данных было включено ~ 16K изображений, а в тестовый набор данных ~ 7K.

В наборе данных шесть классов: открытая вода, развитые, лесные, луговые, пастбищные и культивируемые. Данные обучения и тестирования имеют дисбаланс классов, но распределение классов в двух наборах данных относительно похоже. Наименьшее количество проб имеют водные и развитые классы, а наиболее населенные - лесные и культурные.

Может ли модель GAN обобщить классификацию LC на невидимые данные?

В приложениях, не относящихся к геопространственным данным, было показано, что сети GAN могут обобщать лучше, чем CNN. Это означает, что после обучения каждой из этих моделей на обучающих данных сети GAN, как правило, имеют более высокую точность на тестовых данных, которую модель не видела во время обучения.

Чтобы провести справедливое сравнение моделей GAN и CNN, мы разработали их архитектуры с одинаковым числом параметров (44 M и 42 M соответственно). Обе модели были обучены на обучающем наборе данных, и после завершения обучения модель CNN имела более высокую точность F1 для всех классов, кроме открытой воды, по сравнению с GAN. Обе модели показали очень похожие результаты для пикселей открытой воды.

Однако прогнозирование классов LC на основе тестовых данных и сравнение F1-оценки моделей дает совсем иную картину. Модель GAN работает лучше, чем CNN, в четырех классах: открытая вода, развитые, лесные и обрабатываемые земли. У CNN есть лучшие показатели на пастбищах и пастбищах. Этот результат показывает, что наша модель GAN лучше подходит для обобщения невидимых данных для классификации LC. На рисунке 2 показаны три примера изображений Sentinel-2 с метками NLCD, а также их предсказания GAN и CNN.

Для получения более подробной информации ознакомьтесь с нашей статьей, представленной на AI for Earth Workshop на NeurIPS 2020.

Это исследование финансируется за счет гранта, присужденного Radiant Earth Foundation в рамках призыва к действию на Ежегодном собрании Grand Challenges 2019 от Фонда Билла и Мелинды Гейтс. Содержащиеся в нем выводы и заключения принадлежат авторам и не обязательно отражают позицию или политику Фонда Билла и Мелинды Гейтс.