Дерево решений подпадает под категорию контролируемого машинного обучения, оно также называется КОРЗИНА (деревья классификации и регрессии). Он использует древовидную структуру для моделирования отношений между функциями и результатами. Он состоит из узлов, которые представляют функцию принятия решения, и ветвей , которые представляют собой выходные данные функций принятия решений. Таким образом, это блок-схема для решения, как классифицировать новую точку данных.

Решение выбирает лучший атрибут, используя меры выбора атрибута (ASM) для разделения записей. Критерий дерева разбивает данные на подмножества, а подмножества - на более мелкие подмножества. Алгоритм прекращает разбиение данных, когда данные в подмножествах достаточно однородны. Дерево решений разбивает узлы по всем доступным переменным, а затем выбирает разбиение, которое приводит к наиболее однородным подузлам.

Дерево решений можно использовать как для задач классификации, так и для задач регрессии, но они работают по-разному.

Дерево решений для задачи классификации:

  • Апостериорная вероятность всех классов отражается в листовом узле, а листовой узел принадлежит классу большинства. После выполнения класс точки данных определяется конечным узлом, до которого она достигает.
  • Цель состоит в том, чтобы минимизировать примеси на листовом узле в максимально возможной степени.
  • Функция потерь - это мера загрязнения в целевом столбце узлов, принадлежащих родительскому элементу. Примесь в узле - это мера смешения различных классов в целевом столбце узла.

Дерево решений для задачи регрессии:

  • Переменной запроса присваивается среднее или медианное значение целевого атрибута.
  • Цель состоит в том, чтобы минимизировать отклонение (отличие точки данных от центрального значения) в целевом столбце на каждом узле.
  • Уменьшение дисперсии эквивалентно увеличению однородности или чистоты.

Мера точности раскалывания дерева:

Примесь:

Дерево разбивает данные на недостаточно однородные подмножества, называемые нечистыми.

Почему это важно? В зависимости от того, какое измерение примесей используется, результаты древовидной классификации могут различаться. Это может оказать небольшое, а иногда и большое влияние на вашу модель.

Энтропия:

Энтропия контролирует, как дерево решений решает, где разделить данные. Это измерение примесей или случайности в точках данных.

Энтропия вычисляется от 0 до 1. Чем меньше значение энтропии, тем лучше.

Например, допустим, у нас есть только два класса: положительный класс и отрицательный класс. Поэтому "i" здесь может быть либо (+), либо (-). Таким образом, если бы в нашем наборе данных было всего 100 точек данных, из которых 30 принадлежали к положительному классу, а 70 - к отрицательному, тогда «P +» было бы 3/10. и "P-" будет 7/10. Итак, расчет энтропии классов в этом примере по формуле выше.

Энтропия здесь составляет примерно 0,88. Это считается высокой энтропией, высоким уровнем беспорядка (что означает низкий уровень чистоты или очень нечистое расщепление).

Получение информации:

Прирост информации вычисляет разницу между энтропией до разделения и средней энтропией после разделения набора данных на основе заданных значений атрибутов.

  • Он применяется для количественной оценки того, какой признак предоставляет максимальную информацию о классификации на основе понятия энтропии, т. Е. путем количественного определения размера примеси с целью уменьшения количества энтропия начинается от корневого узла к листовым узлам.

Индекс Джини или примесь Джини:

Он вычисляет степень вероятности того, что конкретный объект классифицируется неправильно при случайном выборе. Если все элементы связаны с одним классом, его можно назвать чистым.

Индекс Джини варьируется от 0 до 1, где 0 означает чистоту классификации или безупречную классификацию. Алгоритм (CART) дерева классификации и регрессии использует метод индекса Джини для создания двоичных разбиений.

Индекс Джини VS получение информации:

  • Индекс Джини способствует большему распределению, так что его легко реализовать, тогда как прирост информации предпочитает меньшие распределения с небольшим счетчиком с несколькими конкретными значениями.
  • Индекс Джини оперирует категориальными целевыми переменными с точки зрения «успеха» или «неудачи», а выполняет только двоичное разбиение, в отличие от получения информации вычисляет разницу между энтропия до и после разделения и указывает на примеси в классах элементов.

Разница в ошибках при использовании энтропии Джини и энтропии:

Преимущества и недостатки :

Преимущества :

  • Просто и быстро в обработке и эффективно.
  • Хорошо справляется с зашумленными и отсутствующими данными.
  • Обрабатывает числовые и категориальные переменные.
  • Интерпретация результатов не требует математических или статистических знаний.

Недостатки:

  • Очень легко переобучить.
  • Часто склонность к разбиениям или функциям имеет большое количество уровней (глубина дерева).
  • Небольшие изменения в обучающих данных могут привести к большим изменениям в логике.
  • Большие деревья бывает трудно интерпретировать.

Надеюсь, этот блог помог вам лучше понять дерево решений. Если вам нравится, хлопайте в ладоши. Удачного обучения… :)