Дерево решений подпадает под категорию контролируемого машинного обучения, оно также называется КОРЗИНА (деревья классификации и регрессии). Он использует древовидную структуру для моделирования отношений между функциями и результатами. Он состоит из узлов, которые представляют функцию принятия решения, и ветвей em. >, которые представляют собой выходные данные функций принятия решений. Таким образом, это блок-схема для решения, как классифицировать новую точку данных.
Решение выбирает лучший атрибут, используя меры выбора атрибута (ASM) для разделения записей. Критерий дерева разбивает данные на подмножества, а подмножества - на более мелкие подмножества. Алгоритм прекращает разбиение данных, когда данные в подмножествах достаточно однородны. Дерево решений разбивает узлы по всем доступным переменным, а затем выбирает разбиение, которое приводит к наиболее однородным подузлам.
Дерево решений можно использовать как для задач классификации, так и для задач регрессии, но они работают по-разному.
Дерево решений для задачи классификации:
- Апостериорная вероятность всех классов отражается в листовом узле, а листовой узел принадлежит классу большинства. После выполнения класс точки данных определяется конечным узлом, до которого она достигает.
- Цель состоит в том, чтобы минимизировать примеси на листовом узле в максимально возможной степени.
- Функция потерь - это мера загрязнения в целевом столбце узлов, принадлежащих родительскому элементу. Примесь в узле - это мера смешения различных классов в целевом столбце узла.
Дерево решений для задачи регрессии:
- Переменной запроса присваивается среднее или медианное значение целевого атрибута.
- Цель состоит в том, чтобы минимизировать отклонение (отличие точки данных от центрального значения) в целевом столбце на каждом узле.
- Уменьшение дисперсии эквивалентно увеличению однородности или чистоты.
Мера точности раскалывания дерева:
Примесь:
Дерево разбивает данные на недостаточно однородные подмножества, называемые нечистыми.
Почему это важно? В зависимости от того, какое измерение примесей используется, результаты древовидной классификации могут различаться. Это может оказать небольшое, а иногда и большое влияние на вашу модель.
Энтропия:
Энтропия контролирует, как дерево решений решает, где разделить данные. Это измерение примесей или случайности в точках данных.
Энтропия вычисляется от 0 до 1. Чем меньше значение энтропии, тем лучше.
Например, допустим, у нас есть только два класса: положительный класс и отрицательный класс. Поэтому "i" здесь может быть либо (+), либо (-). Таким образом, если бы в нашем наборе данных было всего 100 точек данных, из которых 30 принадлежали к положительному классу, а 70 - к отрицательному, тогда «P +» было бы 3/10. и "P-" будет 7/10. Итак, расчет энтропии классов в этом примере по формуле выше.
Энтропия здесь составляет примерно 0,88. Это считается высокой энтропией, высоким уровнем беспорядка (что означает низкий уровень чистоты или очень нечистое расщепление).
Получение информации:
Прирост информации вычисляет разницу между энтропией до разделения и средней энтропией после разделения набора данных на основе заданных значений атрибутов.
- Он применяется для количественной оценки того, какой признак предоставляет максимальную информацию о классификации на основе понятия энтропии, т. Е. путем количественного определения размера примеси с целью уменьшения количества энтропия начинается от корневого узла к листовым узлам.
Индекс Джини или примесь Джини:
Он вычисляет степень вероятности того, что конкретный объект классифицируется неправильно при случайном выборе. Если все элементы связаны с одним классом, его можно назвать чистым.
Индекс Джини варьируется от 0 до 1, где 0 означает чистоту классификации или безупречную классификацию. Алгоритм (CART) дерева классификации и регрессии использует метод индекса Джини для создания двоичных разбиений.
Индекс Джини VS получение информации:
- Индекс Джини способствует большему распределению, так что его легко реализовать, тогда как прирост информации предпочитает меньшие распределения с небольшим счетчиком с несколькими конкретными значениями.
- Индекс Джини оперирует категориальными целевыми переменными с точки зрения «успеха» или «неудачи», а выполняет только двоичное разбиение, в отличие от получения информации вычисляет разницу между энтропия до и после разделения и указывает на примеси в классах элементов.
Разница в ошибках при использовании энтропии Джини и энтропии:
Преимущества и недостатки :
Преимущества :
- Просто и быстро в обработке и эффективно.
- Хорошо справляется с зашумленными и отсутствующими данными.
- Обрабатывает числовые и категориальные переменные.
- Интерпретация результатов не требует математических или статистических знаний.
Недостатки:
- Очень легко переобучить.
- Часто склонность к разбиениям или функциям имеет большое количество уровней (глубина дерева).
- Небольшие изменения в обучающих данных могут привести к большим изменениям в логике.
- Большие деревья бывает трудно интерпретировать.
Надеюсь, этот блог помог вам лучше понять дерево решений. Если вам нравится, хлопайте в ладоши. Удачного обучения… :)