Дерево решений — это контролируемый подход к обучению, который можно использовать как для задач классификации, так и для регрессии, однако чаще всего он используется для классификации. Это классификатор с древовидной структурой, в котором внутренние узлы содержат атрибуты набора данных, ветви представляют правила принятия решений, а каждый конечный узел представляет результат.

В дереве решений есть два узла: узел решения и конечный узел. Узлы выбора используются для принятия любого решения и имеют несколько ветвей, тогда как конечные узлы являются результатом таких решений и больше не имеют ветвей. Суждения или тесты основаны на атрибутах предоставленного набора данных.

Оно называется деревом решений, потому что, как и дерево, оно начинается с корневого узла, а затем разветвляется, образуя древовидную структуру.
Алгоритм CART, который расшифровывается как алгоритм дерева классификации и регрессии, используется для построить дерево.
Дерево решений просто задает вопрос и делит дерево на поддеревья в зависимости от ответа (Да/Нет).

Зачем использовать деревья решений?

Поскольку в машинном обучении существует несколько алгоритмов, важно помнить при разработке модели машинного обучения, чтобы выбрать подходящий метод для данного набора данных и проблемы. Два аргумента в пользу использования дерева решений заключаются в следующем:

  1. Деревья решений спроектированы так, чтобы отражать способности человека принимать решения, делая их простыми для понимания.
  2. Поскольку дерево решений имеет древовидную структуру, его логика легко понятна.

Терминология дерева решений

  • Корневой узел. Корневой узел — это место, откуда начинается дерево решений. Он представляет собой весь набор данных, который далее делится на два или более однородных набора.
  • Листовой узел. Листовые узлы являются конечным выходным узлом, и после получения конечного узла дерево не может быть отделено дальше.
  • Разделение. Разделение — это процесс разделения узла принятия решений/корневого узла на подузлы в соответствии с заданными условиями.
  • Ветвь/поддерево: дерево, сформированное путем разделения дерева.
  • Обрезка. Обрезка — это процесс удаления ненужных ветвей из дерева.
  • Родительский/дочерний узел. Корневой узел дерева называется родительским узлом, а остальные узлы называются дочерними узлами.

Как работает алгоритм дерева решений?

В дереве решений алгоритм начинается с корневого узла и продвигается вверх, чтобы предсказать класс данного набора данных. Этот алгоритм сверяет значения корневого свойства со значениями атрибута записи (фактического набора данных), а затем следует по ветви и переходит к следующему узлу в зависимости от сравнения.

Алгоритм проверяет значение атрибута с другими подузлами и переходит к следующему узлу. Он повторяет процедуру, пока не достигнет конечного узла дерева. Следующий алгоритм поможет вам лучше понять весь процесс:

Шаг 1. Начните дерево с корневого узла, который включает в себя весь набор данных, объясняет С.
Шаг 2. Используя показатель выбора атрибута, найдите лучший атрибут в наборе данных.
Шаг 3. Разделите S на подмножества, содержащие потенциальные значения для лучших качеств.
Шаг 4. Создайте дерево решений. узел с лучшим атрибутом.
Шаг 5. Создайте новые деревья решений рекурсивно, используя подмножества набора данных, полученного на шаге 3. Продолжайте эту процедуру, пока не достигнете точки, в которой вы больше не можете классифицировать узлы и обращаться к последнему узлу как к листовому узлу.