Что такое дерево решений в машинном обучении?

Что такое дерево решений?

Дерево решений - это контролируемое машинное обучение, которое можно использовать как для задач классификации, так и для задач регрессии, но в основном оно предпочтительнее для решения задач классификации. Это классификатор с древовидной структурой, где внутренние узлы представляют особенности набора данных, ветви представляют правила принятия решений, а каждый листовой узел представляет результат. В дереве решений есть два узла: узел решения и узел листа. Узлы решения используются для принятия любого решения и имеют несколько ветвей, тогда как узлы Leaf являются выходными данными этих решений и не содержат никаких дополнительных ветвей. Решения или тест выполняются на основе характеристик данного набора данных.

Типы деревьев решений

Типы деревьев решений основаны на типе целевой переменной, которая у нас есть. Он бывает двух видов:

Дерево решений с категориальной переменной. Дерево решений, в котором есть категориальная целевая переменная, оно называется деревом решений с категориальной переменной.
Дерево решений с непрерывной переменной. Дерево решений имеет непрерывную целевую переменную, тогда оно называется Дерево решений с непрерывной переменной.

Важная терминология, относящаяся к деревьям решений

Корневой узел: он представляет всю генеральную совокупность или выборку, которая в дальнейшем делится на два или более однородных набора.
Разделение: это процесс разделения узла на два или более подузлов.
Узел принятия решения: когда подузел разделяется на дополнительные подузлы, он называется узлом принятия решения.
Конечный / конечный узел: узлы, которые не разделяются, называется конечным или конечным узлом.
Удаление: когда мы удаляем подузлы узла принятия решения, этот процесс называется сокращением. Можно сказать обратный процесс расщепления.
Ветвь / поддерево: Подраздел всего дерева называется ветвью или поддеревом.
Родительский и дочерний узлы: узел, который разделен на подузлы, называется родительским узлом подузлов, тогда как подузлы являются дочерними по отношению к родительскому узлу.

Метрики дерева решений

Джини примеси

Показатель примеси Джини - это один из методов, используемых в алгоритмах дерева решений для определения оптимального разделения на основе корневого узла и последующих разделений.

Энтропия

Дерево решений строится сверху вниз от корневого узла и включает разбиение данных на подмножества, содержащие экземпляры с похожими значениями (однородными).

Получение информации

Прирост информации - это уменьшение энтропии или неожиданности за счет преобразования набора данных и часто используется при обучении деревьев решений. Прирост информации рассчитывается путем сравнения энтропии набора данных до и после преобразования.

Энтропия и прирост информации в сравнении с примесью Джини и приростом информации

Индекс Джини и энтропия имеют два основных различия:

Индекс Джини имеет значения внутри интервала [0, 0,5], тогда как интервал энтропии равен [0, 1]. На следующем рисунке они оба представлены. Индекс Джини также был представлен умноженным на два, чтобы конкретно увидеть различия между ними, которые не очень значительны.

С вычислительной точки зрения энтропия более сложна, поскольку в ней используются логарифмы, и, следовательно, расчет индекса Джини будет быстрее.

Поэтому мы собираемся проанализировать влияние на время обучения при использовании того или иного критерия. Для этого были созданы различные синтетические наборы данных. Все эти наборы данных имеют 10 функций, и их можно сгруппировать в 4 группы, в зависимости от того, являются ли они информативными, избыточными, повторяющимися или случайными:

Преимущества дерева решений

1. Легко читать и интерпретировать. Одно из преимуществ деревьев решений состоит в том, что их выходные данные легко читать и интерпретировать, даже не требуя статистических знаний. Например, при использовании деревьев решений для представления демографической информации о клиентах сотрудники отдела маркетинга могут читать и интерпретировать графическое представление данных, не требуя статистических знаний. Эти данные также можно использовать для получения важной информации о вероятностях, затратах и альтернативах различным стратегиям, сформулированным отделом маркетинга.

2. Легко подготовить. По сравнению с другими методами принятия решений, деревья решений требуют меньше усилий для подготовки данных. Однако пользователям необходимо иметь готовую информацию, чтобы создавать новые переменные, способные предсказывать целевую переменную. Они также могут создавать классификации данных без сложных вычислений. В сложных ситуациях пользователи могут комбинировать деревья решений с другими методами.

3. Требуется меньшая очистка данных - Еще одно преимущество деревьев решений состоит в том, что после создания переменных требуется меньше очистки данных. Случаи пропущенных значений и выбросов имеют меньшее значение для данных дерева решений.

Ограничения дерева решений

Деревья могут быть очень ненадежными. Небольшое изменение обучающих данных может привести к большому изменению дерева и, следовательно, окончательных прогнозов.
Известно, что проблема обучения оптимальному дереву решений является NP-полной с точки зрения нескольких аспектов оптимальности и даже для простых концепций. Следовательно, практические алгоритмы обучения дереву решений основаны на эвристиках, таких как жадный алгоритм, в котором локально оптимальные решения принимаются в каждом узле. Такие алгоритмы не могут гарантировать возврат глобального оптимального дерева решений. Чтобы уменьшить жадный эффект локальной оптимальности, были предложены такие методы, как дерево двойных информационных расстояний (DID).
Обучающиеся дерева решений могут создавать слишком сложные деревья, которые плохо обобщаются на основе данных обучения. Чтобы избежать этой проблемы, необходимы такие механизмы, как обрезка (за исключением некоторых алгоритмов, таких как подход условного вывода, который не требует отсечения).
Для данных, включающих категориальные переменные с разным количеством уровней, информация выигрыш в деревьях решений смещена в пользу атрибутов с большим количеством уровней. Однако проблема смещения выбора предиктора устраняется подходом условного вывода, двухэтапным подходом или адаптивным выбором функции исключения по одному.

Чтобы получить больше информации:

Как построить модель машинного обучения?

Github Gist - дерево решений с нуля (пояснения от А до Я)

Ссылка

Википедия, Квантдаре