Дерево решений — это контролируемый подход к обучению, который можно использовать как для задач классификации, так и для регрессии, однако чаще всего он используется для классификации. Это классификатор с древовидной структурой, в котором внутренние узлы содержат атрибуты набора данных, ветви представляют правила принятия решений, а каждый конечный узел представляет результат.
В дереве решений есть два узла: узел решения и конечный узел. Узлы выбора используются для принятия любого решения и имеют несколько ветвей, тогда как конечные узлы являются результатом таких решений и больше не имеют ветвей. Суждения или тесты основаны на атрибутах предоставленного набора данных.
Оно называется деревом решений, потому что, как и дерево, оно начинается с корневого узла, а затем разветвляется, образуя древовидную структуру.
Алгоритм CART, который расшифровывается как алгоритм дерева классификации и регрессии, используется для построить дерево.
Дерево решений просто задает вопрос и делит дерево на поддеревья в зависимости от ответа (Да/Нет).
Зачем использовать деревья решений?
Поскольку в машинном обучении существует несколько алгоритмов, важно помнить при разработке модели машинного обучения, чтобы выбрать подходящий метод для данного набора данных и проблемы. Два аргумента в пользу использования дерева решений заключаются в следующем:
- Деревья решений спроектированы так, чтобы отражать способности человека принимать решения, делая их простыми для понимания.
- Поскольку дерево решений имеет древовидную структуру, его логика легко понятна.
Терминология дерева решений
- Корневой узел. Корневой узел — это место, откуда начинается дерево решений. Он представляет собой весь набор данных, который далее делится на два или более однородных набора.
- Листовой узел. Листовые узлы являются конечным выходным узлом, и после получения конечного узла дерево не может быть отделено дальше.
- Разделение. Разделение — это процесс разделения узла принятия решений/корневого узла на подузлы в соответствии с заданными условиями.
- Ветвь/поддерево: дерево, сформированное путем разделения дерева.
- Обрезка. Обрезка — это процесс удаления ненужных ветвей из дерева.
- Родительский/дочерний узел. Корневой узел дерева называется родительским узлом, а остальные узлы называются дочерними узлами.
Как работает алгоритм дерева решений?
В дереве решений алгоритм начинается с корневого узла и продвигается вверх, чтобы предсказать класс данного набора данных. Этот алгоритм сверяет значения корневого свойства со значениями атрибута записи (фактического набора данных), а затем следует по ветви и переходит к следующему узлу в зависимости от сравнения.
Алгоритм проверяет значение атрибута с другими подузлами и переходит к следующему узлу. Он повторяет процедуру, пока не достигнет конечного узла дерева. Следующий алгоритм поможет вам лучше понять весь процесс:
Шаг 1. Начните дерево с корневого узла, который включает в себя весь набор данных, объясняет С.
Шаг 2. Используя показатель выбора атрибута, найдите лучший атрибут в наборе данных.
Шаг 3. Разделите S на подмножества, содержащие потенциальные значения для лучших качеств.
Шаг 4. Создайте дерево решений. узел с лучшим атрибутом.
Шаг 5. Создайте новые деревья решений рекурсивно, используя подмножества набора данных, полученного на шаге 3. Продолжайте эту процедуру, пока не достигнете точки, в которой вы больше не можете классифицировать узлы и обращаться к последнему узлу как к листовому узлу.