Прогнозирование лесных пожаров в Австралии

Авторы: Марко Де Айзо, Андреа Онгаро, Джулия Плотти, Гульельмо Санчини

Лесные пожары являются одними из наиболее распространенных форм стихийных бедствий в некоторых регионах, включая Сибирь, Калифорнию и Австралию. Улучшить прогнозирование лесных пожаров важно по нескольким причинам: чтобы подготовиться и отреагировать, понять первопричины, помочь смягчить последствия лесных пожаров в будущем. Для решения этой проблемы было проведено множество исследований по мониторингу, прогнозированию и предотвращению лесных пожаров с использованием методов машинного обучения с данными дистанционного зондирования [1–11].

В октябре 2020 года IBM предложила первый конкурс Data Science Challenge, открытый для внутренних и внешних участников. Цель задачи состоит в том, чтобы предсказать размер площади пожара в квадратных километрах в каждом из 7 австралийских регионов на каждый день февраля 2021 года, используя данные, доступные до 29 января. В этой статье мы обсуждаем наш подход к разработке решения с подробным описанием эффективного процесса обучения, а также некоторые соответствующие действия для каждого этапа методологии CRISP-DM. Наконец, мы описываем достигнутые результаты и потенциальные улучшения нашего подхода.

Сформулируйте проблему

В конкурсе Code Spot Challenge for Wildfires требовалось, чтобы команды предсказывали лесные пожары в Австралии по регионам и дням на февраль 2021 года, используя 5 наборов данных от PAIRS Geoscope и Earthdata NASA:

  • Исторические лесные пожары: данные о распространении лесных пожаров по регионам в ежедневном режиме с января 2005 г. по 29 января 2021 г.
  • Историческая погода: погодные параметры, такие как температура, температура почвы, влажность, осадки, скорость ветра в суточной норме по регионам с января 2005 г.
  • Исторические прогнозы погоды на 5/10/15 дней, содержащие те же параметры, что и набор исторических данных о погоде, с июня 2005 г.
  • Исторический индекс растительности: данные индекса растительности, агрегированные по регионам ежемесячно с января 2005 г.

Поскольку прогноз погоды доступен максимум на 15 дней вперед, можно предсказать первую половину февраля 2021 года, используя климатические данные, тогда как эта информация недоступна для второй половины месяца. Таким образом, стратегия моделирования должна учитывать это свидетельство.

Ссылка на репозиторий GitHub: https://github.com/Call-for-Code/Spot-Challenge-Wildfires

Методология

Исследование можно разделить на два основных этапа.

На первом этапе исследования мы провели систематический обзор опубликованных статей по этому вопросу, чтобы ознакомиться с предметной областью и понять, какие данные и какие методы машинного обучения были приняты. На основе метеорологических данных можно рассчитать параметры, которые, как доказано, связаны с лесными пожарами, такие как индекс засухи, стандартный индекс осадков и индекс эвапотранспирации. По спутниковым изображениям можно вычислить другой класс параметров, связанных с лесными пожарами, таких как нормализованный индекс растительности, индекс древесины, индекс площади листвы.

На втором этапе исследования мы разрабатываем наше решение, следуя рекомендациям, предоставленным структурой CRISP-DM.

Понимание данных

Анализ литературы [1–11] показал, что пожары могут быть обусловлены факторами, связанными с двумя типами переменных: эндогенными — всеми факторами, позволяющими характеризовать лесные пожары в данной географической зоне, — и экзогенными — связанными в основном с погодными условиями. Условия и растительность.

На этапе понимания данных мы попытались проанализировать имеющиеся данные и проверить нашу гипотезу, чтобы выделить взаимосвязь между переменными и нашей целью.

Мы начали с анализа эндогенных переменных.

Во-первых, сравнение частоты лесных пожаров в разных регионах выявило наличие двух кластеров. В Квинсленде, Северной территории, Новом Южном Уэльсе и Западной Австралии исторически возникло больше пожаров, чем в остальной части Австралии. Отсюда следует, что целесообразно создавать прогнозную модель для каждого отдельного региона.

Во-вторых, мы проверили гипотезу о том, что может существовать корреляция между граничащими регионами. В конце концов, лесные пожары не знают политических границ. Тест причинности Грейнджера оценивает, связаны ли временные ряды определенного события с временными рядами другого события. В нашем случае в тесте сравнивались серии прошлых лесных пожаров для всех комбинаций регионов. Близкие к нулю P-значения подтверждают гипотезу о взаимном влиянии событий в граничащих регионах.

Наконец, мы оценили, зависит ли наше целевое значение — распространение пожара в данный день — от значения пожара в предыдущие дни. То есть мы оценили авторегрессионную составляющую. Поскольку точки, представляющие все исторические наблюдения для данного региона, расположены вдоль биссектрисы декартовой плоскости, разумно предположить, что авторегрессионный компонент играет важную роль в прогнозировании лесных пожаров.

Переходя к экзогенным переменным, мы выдвинули гипотезу о том, что погода и растительность будут одними из факторов, способствующих возникновению лесных пожаров. С одной стороны, высокие температуры, малое количество осадков и уровень влажности способствуют наличию засухи, особенно в так называемый «сезон лесных пожаров», который длится с октября по февраль. С другой стороны, наличие сухой растительности способствует распространению лесных пожаров — как природных, так и поджогов, в результате чего пожарами охвачены более обширные территории страны. Анализируя исторические данные, мы заметили, что оба соображения справедливы для лесных пожаров в Австралии.

Засуху можно выразить как отношение между количеством дней, когда выпало не менее 2 мм/м² осадков в течение временного окна (для наших моделей мы выбрали 60 дней), и общим количеством осадков за тот же период. Сопоставляя индекс засухи для данного дня с измеренной площадью пожаров в тот же день, мы замечаем, что пики распространения лесных пожаров приходятся на периоды сильной засухи. В литературе было предложено множество индексов засухи, и каждый из них можно настроить с различными параметрами. В нашу модель мы включили такие показатели, как PET и SPI, и полагались на библиотеку Python, предназначенную именно для расчета индексов погоды (https://pypi.org/project/climate-indices/).

Подготовка данных

Наш этап подготовки данных состоит из трех шагов:

  • Определение периметра анализа.
  • Предварительная обработка данных
  • Стратегия разделения

На определение периметра сильно влияет этап понимания данных, и он определяет, как строятся следующие этапы, поскольку он влияет на то, как создается таблица интеллектуального анализа данных, и на количество моделей, которые необходимо разработать. Поскольку каждый регион показывает свой исторический профиль лесных пожаров, мы решили создать набор данных для каждой пары (T, R), где T — количество дней до прогноза, а R — регион. В итоге у нас получилось 28 (дней февраля) * 7 (количество регионов) таблицы майнинга.

Переходя к предварительной обработке данных, мы можем выделить 4 класса переменных.

Первый касается авторегрессионной составляющей. Из исторических значений цели мы извлекли характеристики запаздывания и скользящие функции (минимум, максимум, среднее, стандартное отклонение).

Второй класс моделирует воздействие погоды на цель. Здесь, после вычисления двух индексов засухи (SPI и PET), мы получили из них переменные запаздывания и качения. Поскольку у нас был прогноз погоды только на 15 дней вперед, а нам нужно было предсказать на 32 дня вперед, мы использовали среднее значение каждой меры погоды для одного и того же дня в предыдущие годы для оценки значения для оставшихся дней.

Третий класс – сезонность. Мы построили только две переменные: месяц и день года.

Наконец, вегетационный индекс: после преобразования его из месячного в дневное значение мы вычислили некоторые лаг-индикаторы.

Все эти функции объединяются для получения окончательной таблицы майнинга, которая содержит более 200 переменных. Применяя анализ основных компонентов, мы смогли уменьшить размерность, уменьшив коллинеарность и без потери информации.

Разделение обучения и тестирования было сделано с учетом того, что мы оценивались за февраль 2021 года. Учитывая это, мы решили использовать в качестве тестового набора последние три доступных февраля (2018, 2019, 2020) и январь 2021 года.

Моделирование и оценка

Моделирование и оценка тесно взаимосвязаны. Комбинированная итерация обоих — лучший способ найти наилучшее решение, например, определить лучшую модель, определить оптимальное сочетание функций и оптимальные параметры. Из-за характера таблиц майнинга, которые мы создали, мы не использовали традиционный подход временных рядов, а вместо этого использовали более сложный контролируемый подход.

Более того, учитывая сложность проблемы, мы полагались не на одну модель, а на разные древовидные модели для генерации нашего прогноза: XGBoost, LightGBM и Random Forest.

В конце концов мы решили создать ансамбль из 4 разных моделей для каждого заданного времени выполнения и региона. Мы использовали два метода для объединения частичных результатов, чтобы максимизировать точность наших окончательных представлений:

  • Взяв среднее геометрическое двух центральных прогнозов (после их сортировки в порядке возрастания)
  • Комбинируя, глядя на результаты, полученные за январь 2021 года.

Чтобы понять второй метод ансамбля, давайте посмотрим на графики метрики ошибок (называемой tot) по количеству дней отставания в регионах QL и NT за январь 2021 года. Каждая цветная линия представляет собой модель, которая, в свою очередь, представляет собой объединение 28 различных моделей (по одной на каждый день запаздывания), и мы используем эти графики для объединения моделей, выбирая их наиболее благоприятную комбинацию для каждого числа дней запаздывания, т. е. ту, которая дает наименьшую возможную ошибку tot.

Этап оценки посвящен оценке производительности прогностической модели, которая зависит от выбранных показателей, которые, в свою очередь, зависят от бизнес-проблемы, с которой приходится иметь дело.

В этом случае показатель конкуренции представляет собой средневзвешенное значение средней абсолютной ошибки (MAE) и среднеквадратичной ошибки (RMSE) с весами 0,8 и 0,2 соответственно.

Различные подходы

В дополнение к представленному подходу мы экспериментировали с различными методами моделирования, направленными на улучшение наших характеристик. В частности, мы применяли:

  • Модель VAR (векторная авторегрессия), использующая серию пожаров на территории, которую мы пытались предсказать, вместе с граничащими территориями, которые были вызваны Грейнджером;
  • Нейронная сеть LSTM (долговременная кратковременная память) с несколькими параллельными входами (каждая территория) и многошаговым выходом, предсказывающая весь февраль 2021 года.

К сожалению, обе модели показали худшие результаты, чем представленные ансамблевые модели.

Упомянем здесь также различные подходы, которые мы не применяли, но которые потенциально могли бы улучшить наши модели. Что касается этапа выбора признаков, то вместо PCA можно было бы использовать рекурсивное исключение признаков, простое пороговое значение дисперсии или SelectKBest. Наконец, переходя к сборке, альтернативные стратегии, которые мы рассматривали для реализации, следующие:

  • «Наложение» одной, т. е. использование прогнозов четырех моделей в качестве входных данных для второй модели;
  • Один «Оптимальные веса», то есть вычисление списка оптимальных весов в обучающем наборе, который затем можно было бы использовать для вычисления средневзвешенного значения четырех моделей.

Результаты

Реализованный метод привел к конечному результату 9,54. На следующем графике сравниваются прогнозы и фактические данные на февраль 2021 года по регионам. Наши прогнозы правильно отражают тенденцию реальных лесных пожаров, но не могут предсказать пики, т. е. когда разница, рассчитанная за два последующих дня, велика.

На это есть две возможные причины:

  • Стратегия ансамбля: прогноз вычисляется как среднее геометрическое между прогнозами.
  • Детализация данных: лесные пожары — это локальное явление. Затем следует рассмотреть данные на более мелкой локальной сетке, если вы хотите получить более точные прогнозы.

Если вместо этого мы посмотрим на вклад отдельных моделей до объединения, мы заметим, что для первой половины февраля одна из четырех моделей (зеленая) воспроизводит правильный профиль фактического значения. Это происходит в двух регионах, а именно в Новом Южном Уэльсе и Квинсленде.

Заключение

Эта статья дает представление о процессе анализа, который мы внедрили для решения задачи Call for Code Spot для Wildfires. После систематического обзора опубликованных статей по этому вопросу мы объяснили, как исследовать данные, выполнять углубленный анализ, определять и реализовывать стратегию построения периметра анализа, строить соответствующие индикаторы и моделировать и оценивать результаты. В конце мы выделяем новые возможные линии анализа, чтобы повысить точность прогноза за счет использования более детальных данных.

Ссылки

[1] Agarwal, P., et al. «Большие данные и предиктивная аналитика пожарных рисков с использованием данных о погоде». Анализ рисков, том. 40, нет. 7, 2020 г., стр. 1438–1449, doi://doi.org/10.1111/risa.13480.

Индексы засухи, связанные с пожарами. https://www.auburn.edu/academic/forestry_wildlife/fire/drought.htm.

[2] Горбанзаде, Омид и др. «Пространственное прогнозирование подверженности лесным пожарам с использованием данных GPS полевых исследований и подходов машинного обучения». Огонь, том. 2, нет. 3, июль 2019 г., с. 43, doi:10.3390/fire2030043.

[3] Кили, Джон Э. «Интенсивность пожара, серьезность пожара и серьезность ожога: краткий обзор и рекомендуемое использование». Международный журнал Wildland Fire, vol. 18, нет. 1, 2009, с. 116, doi:10.1071/WF07049.

[4] Лойенбергер, Майкл и др. «Карта подверженности лесным пожарам: детерминистический и стохастический подходы». Моделирование окружающей среды и программное обеспечение, том. 101, 2018 г., стр. 194–203, doi:10.1016/j.envsoft.2017.12.019.

[5] Лян Х. и соавт. «Модель нейронной сети для прогнозирования масштабов лесных пожаров с использованием метеорологических факторов». Доступ IEEE, том. 7, 2019 г., стр. 176746–55, doi:10.1109/ACCESS.2019.2957837.

[6] Ма, Джун. «Обнаружение риска лесных пожаров, вызванного неисправностями растительности на линиях электропередач, в режиме реального времени с использованием передовых методов машинного обучения». Дж. Ма, 2020, с. 9.

[7] Майкл, Ярон и др. «Прогнозирование пожароопасности с помощью машинного обучения и динамической информации, полученной из временных рядов спутниковых индексов растительности». Наука о полной окружающей среде, 2020, с. 142844, doi:10.1016/j.scitotenv.2020.142844.

[8] Прейслер, Хайгануш К. и Энтони Л. Вестерлинг. «Статистическая модель для прогнозирования ежемесячных крупных лесных пожаров на западе США». Журнал прикладной метеорологии и климатологии, том. 46, нет. 7, июль 2007 г., стр. 1020–30, doi:10.1175/JAM2513.1.

[9] Родригес, Маркос. «Понимание алгоритмов машинного обучения для моделирования лесных пожаров, вызванных деятельностью человека». Экологическое моделирование, 2014, с. 10.

[10] Саяд, Юнес Улад. «Прогнозное моделирование лесных пожаров — новый набор данных и подход к машинному обучению». Журнал пожарной безопасности, 2019, с. 17.

[11] Tonini, Marj, et al. «Подход на основе машинного обучения для картирования подверженности лесным пожарам. Пример региона Лигурия в Италии». Науки о Земле, том. 10, нет. 3, март 2020 г., с. 105, doi:10.3390/науки о Земле10030105.

Другие ссылки на вызов

https://www.bloomberg.com/news/articles/2019-12-31/australia-scrambles-military-to-wildfire-devastated-towns