Случайный лес — это метод машинного обучения на основе дерева, который также используется для классификации, регрессии и кластеризации. Он использует коллекцию деревьев, где каждое дерево голосует за результат. В случае классификации лесу присваивается класс, по которому проголосовало максимальное количество деревьев. В случае регрессии выход представляет собой среднее значение результатов всех деревьев.

Предположим, что имеется двадцать различных возможных переменных-предикторов. Если вы создаете единое дерево решений, оно может иметь некоторую предвзятость. В качестве альтернативы, в Random Forest вы выбираете случайную выборку из 4 переменных (скажем) из всех переменных и строите дерево. Повторите это несколько раз, скажем, 10. Теперь у вас есть 10 разных деревьев (назовем их лесом), в которых использовались разные переменные и создавался разный уровень точности.

Теперь эти деревья дают голоса каждой переменной на основе результатов, это дает хорошее представление о важности переменной и, наконец, дает значение переменной-предиктора.

Классификация и регрессия

Каждому дереву дается образец полного набора данных с заменой. Подмножество функций используется для создания дерева максимально возможной глубины. Точки данных и функции затем используются для создания соответствующих деревьев CART.

Кластеризация

Мера несходства между точками данных используется для создания матрицы расстояний. Кластеризация PAM (Partitioning Around Medoid) выполняется на этой матрице расстояний (используя входные данные для нескольких кластеров) для создания окончательных кластеров.

Набор данных для практики:

Чтобы попрактиковаться на наборе данных, вы можете посетить Analyttica TreasureHunt.

Вход и выход:

В Analyttica TreasureHunt вы можете запустить кластеризацию случайного леса, выбрав целевую и предикторную переменные. Данные не должны содержать пропущенных значений. Целевая переменная должна быть переменной класса.

Выходные данные функции имеют матрицу путаницы, чтобы показать точность классификации и меры важности переменных. Он также выполняет 5-кратную перекрестную проверку и дает сводку результатов. Прогнозируемый класс создается в новом поле в наборе данных.

Применение и интерпретация:

Один и тот же алгоритм RF (Random Forest) используется для классификации и регрессии. В зависимости от целевой переменной (фактор или непрерывная переменная) формируется RF.

Количество деревьев не должно быть маленьким, давая каждому классу/выходу достаточное количество деревьев, чтобы дать каждому классу результат.

Смотрите также:

Дерево решений CHAID, Дерево решений CART, Дерево решений C5.0, Алгоритм повышения ADA, Регрессия случайного леса, Кластеризация случайного леса.