В выпуске ArcGIS Pro 2.2 есть новый захватывающий инструмент машинного обучения, который помогает делать прогнозы. Он называется Классификация и регрессия на основе леса и позволяет аналитикам эффективно разрабатывать, тестировать и развертывать прогнозные модели.

Классификация и регрессия на основе леса применяет алгоритм случайного леса Лео Бреймана, популярный метод машинного обучения с учителем, используемый для классификации и прогнозирования. Этот инструмент позволяет аналитикам легко включать табличные атрибуты, объекты на основе расстояний и пояснительные растры для построения прогнозных моделей и расширяет возможности прогнозного моделирования, чтобы сделать его доступным и возможным для всех пользователей ГИС.

Чтобы продемонстрировать возможности классификации и регрессии на основе лесов, мы решили популярную проблему в сообществе специалистов по анализу данных: прогнозирование стоимости продажи домов. Давайте рассмотрим базовое упражнение по построению модели, которая включает пространственные факторы, чтобы помочь улучшить прогноз цен на продажу жилья в Калифорнии.

Прогноз цен на жилье в Калифорнии

Мы начнем с использования популярного California Housing Dataset от Kaggle, содержащего участки в Калифорнии с рядом агрегированных атрибутов домов в каждом участке.

Трудно сделать что-то значимое, просто взглянув на приведенную выше таблицу, поэтому давайте составим карту каждого участка, обозначенного средней стоимостью продажи дома в каждом месте:

На этой карте каждая точка обозначает центр тяжести тракта в Калифорнии. Цветовая гамма представляет собой среднюю стоимость продажи всех домов в районе. Синий представляет низкие значения продаж, желтый - средние значения продаж, а красный - самые высокие значения.

Вы заметили какую-нибудь общую закономерность, просто взглянув на эту карту?

Вы можете заметить, что дома по более высокой цене расположены недалеко от крупнейших мегаполисов. Вы также можете заметить, что дома по более высокой цене расположены недалеко от побережья. Краткая исследовательская диаграмма в ArcGIS Pro помогает нам изучить эти закономерности:

Давайте посмотрим остальные данные в предоставленной таблице. Каждая запись содержит несколько основных точек данных для всех домов в тракте:

Средняя стоимость дома для каждого участка - это наша переменная, которую необходимо предсказать, и эти атрибуты, вероятно, важны для оценки каждого значения.

Мы начнем с примера, приведенного Орелиеном Жероном в его книге Практическое машинное обучение с помощью Scikit-Learn и TensorFlow, где модель случайного леса была построена с использованием в основном непространственных факторы (т. е. атрибуты в таблице, показанной выше). Мы сравним эту модель со второй моделью, где мы начнем вводить другие слои ГИС, чтобы оценить, как близость каждого участка к интересующим местам может помочь улучшить модель при оценке средней стоимости домов.

Непространственная модель

Наша первая модель будет следовать примеру практического машинного обучения с помощью Scikit-Learn и TensorFlow, используя следующие характеристики для каждой записи тракта:

  • Средний доход
  • Средний возраст жилья
  • Всего комнат
  • Всего Спальни
  • численность населения
  • Домохозяйства
  • Близость океана

Давайте откроем инструмент классификации и регрессии на основе леса и начнем:

Первый параметр обозначает тип прогона, который вы хотите выполнить. Для этого базового исследования мы хотим оценить диагностику модели (т. Е. Прогнозирующую производительность) и отслеживать изменения по мере того, как мы вводим и тестируем комбинации факторов. По этой причине оставим для этого параметра значение «Только поезд».

Мы укажем входные обучающие функции, передав наш слой ГИС участков в Калифорнии, нашу переменную для прогнозирования, используя атрибут «median_house_value», а затем укажем, какие атрибуты будут использоваться для модели в разделе параметров «Объяснительные обучающие переменные» с помощью выбирая каждый соответствующий столбец во входных данных. По завершении входные данные вашего инструмента геообработки должны выглядеть следующим образом:

После выполнения модели инструмент создает лес, который устанавливает взаимосвязь между независимыми переменными и назначенной переменной для прогнозирования. Для получения дополнительной информации о том, как работает этот инструмент, обязательно прочтите this.

Когда инструмент завершит свою работу, вы должны получить подробную диагностику производительности вашей модели:

Оценка важности главных переменных дает общее представление о том, какие факторы помогли модели (средний доход и близость океана имели большое значение). А пока давайте запомним наше значение R-Squared: 0,706 (оно может немного отличаться при выполнении).

Обратите внимание: чтобы создать модель, которая не меняется при каждом запуске, можно задать начальное значение в параметрах среды генератора случайных чисел. В модели по-прежнему будет случайность, но эта случайность будет постоянной между прогонами.

Пространственная модель

Теперь, когда мы опробовали оригинальный подход к оценке стоимости продажи дома, который в основном использует непространственные факторы, давайте посмотрим, как меняется модель, когда мы вводим функции дистанционного обучения. Цель состоит в том, чтобы вычислить расстояния между каждым участком и рядом потенциально важных характеристик, связанных с ценами на жилье. Для нашего несложного исследовательского упражнения мы использовали точечные классы полей для гольфа, школ, больниц, зон отдыха и кладбищ. Мы также добавим класс пространственных объектов полилинии побережья Калифорнии.

Чтобы вычислить все эти расстояния, вы можете придумать сценарий для итерации по каждой записи и запуска некоторых функций приближения для определения расстояний между каждой геометрической записью ... или вы можете просто открыть инструмент классификации и регрессии на основе леса и перетащить каждый объект в параметр Объяснительные параметры дистанции обучения:

После загрузки каждого объекта расстояния мы можем запустить инструмент. Наши параметры в этот момент выглядели так:

Не стесняйтесь экспериментировать со своими собственными потенциальными объясняющими факторами тренировки! Краткий пример: можете ли вы найти набор данных с местоположениями остановок общественного транспорта, перенести его в свой проект ArcGIS Pro и загрузить местоположения в параметр Объяснительные объекты расстояния для обучения? Как этот фактор меняет вашу модель?

После запуска инструмента мы можем оценить нашу диагностику и сравнить с исходной моделью:

Новая регрессионная диагностика достигла значения R-Squared 0,763. Интересно, что базовая модель с в основном факторами, основанными на расстоянии, работала немного лучше, чем исходная модель, которая в основном учитывала непространственные характеристики домов (количество ванных комнат и т. Д.). Во всяком случае - это основанное на данных доказательство местоположения, местоположения, пословица местоположения!

Запуск инструмента также предоставит выходные данные модели для ваших входных данных:

Само по себе это бесполезно, поскольку мы в основном прогнозируем записи с известными значениями, но полезно увидеть, как функции, основанные на расстоянии, влияют на производительность модели. Более того, чрезвычайно полезно иметь возможность включать существующие дополнительные данные ГИС в соображения модели относительно близости таким быстрым и интуитивно понятным способом.

Примечание. Дополнительным важным аспектом классификации и регрессии на основе леса является способ, которым эффекты мультиколлинеарности в возможных объяснительных факторах не мешают вам создавать эффективные модели. Чтобы понять, как случайный лес смягчает проблемы с мультиколлинеарностью, я рекомендую вам продолжить изучение документации инструмента и дополнительной документации случайного леса.

Заключение и ресурсы

Выполнение анализа для прогнозирования любого события или значения обязательно будет исследовательским, итеративным, беспорядочным и трудоемким занятием. Для поддержки этих рабочих процессов нам нужны инструменты, которые помогут нам быстро включать пространственные данные, поддерживают тестирование, позволяют нам быстро оценивать результаты и позволяют повторять, пока мы не достигнем удовлетворительного результата.

Классификация и регрессия на основе лесов расширяет возможности мощного алгоритма машинного обучения случайных лесов за счет включения возможности учитывать не только данные атрибутов в ваших моделях, но также функции дистанционного обучения и пояснительные растры для использования местоположения в вашем анализе.

Ресурсы

Документация по инструментам лесной классификации и регрессии

Как работает классификация и регрессия на основе лесов

Ресурсы пространственной статистики

Использование лесной классификации и регрессии в прогнозировании случаев госпитализации с астмой