В рамках контролируемого обучения для задач классификации мы можем использовать «деревья решений».

Если вы хотите классифицировать или создать классификатор, мы можем использовать деревья решений.

Если у вас есть дискретный набор данных, используйте дерево решений. Дискретный означает «не непрерывные значения». Дискретными точками данных могут быть: «логические значения», числа, категории и т. д.

После того, как мы обучим наш алгоритм с набором функций и меток, алгоритм автоматически создаст структуру «дерева решений» после чтения входного набора данных.

Как только дерево будет создано, наша модель дерева решений будет делать прогнозы.

Структура дерева — каждый атрибут становится неконечным узлом, а каждое «значение метки» результата становится конечным узлом. Это похоже на блок-схему.

Выбор атрибутов очень важен для создания точного дерева. Атрибут Good разделит основной набор на несколько подмножеств. Подмножества могут быть «Все отрицательные» или «Все положительные» [приблизительно].

Классификация — пример машинного обучения с набором данных:

Всего у нас есть 5 записей для обучения нашей модели дерева.

Этот случай представляет собой проблему двоичной классификации.

Для 2-х записей — у которых Skill=«Cloud», они сдадут «True». Еще для 3-х записей — у которых Skill="Database SQL" будет списано "False". Атрибут «Skill» — это Label[Целевое значение с «True» или «False»]. Атрибут Skill делит 5 записей [наблюдений] на 2 подмножества, 2 записи «уходят в отставку» True и 3 записи «уходят в отставку» False.

Прочтите эту книгу по машинному обучению: Artificial Intelligence A Modern Approach.pdf