Используя данные «играть в гольф» или «играть в мяч» (перечисленные внизу), чтобы выбрать корневой узел, мы смотрим на Outlook, температуру, влажность и ветер, чтобы увидеть, какой из них имеет самый высокий коэффициент усиления.
Теперь Outlook будет выбран как атрибут с наивысшим коэффициентом усиления. Однако меня смущает то, что влажность (непрерывный атрибут) выбирает точку разделения 80 с коэффициентом усиления = 0,1087, а 65 имеет более высокое значение < strong> GainRatio = 0,1285. Точка разделения 80 действительно имеет более высокое усиление, но не коэффициент усиления.
Я видел, как в литературе говорится примерно: «выберите точку разделения для непрерывного атрибута, который дает наибольший выигрыш» ... мне кажется нелогичным, что точка разделения основана только на усилении, а не на чтобы при сравнении всех атрибутов вы выбираете наивысший коэффициент усиления, который будет следующим узлом принятия решения.
Я надеюсь получить здесь некоторую ясность.
Спасибо.
Расчеты следующие:
ПЕРСПЕКТИВЫ:
Коэффициент усиления = 0,2467
SplitInfo = 1,5774
Коэффициент усиления = 0,1564
ТЕМПЕРАТУРА:
Коэффициент усиления = 0,0292
SplitInfo = 1,5566
Коэффициент усиления = 0,0187
ВЛАЖНОСТЬ:
Возможные точки разделения = {65, 70, 75, 78, 80, 85, 90, 95, 96}
Split 65:
Коэффициент усиления = 0,0477
SplitInfo = 0,3712
Коэффициент усиления = 0,1285
Split 80:
Коэффициент усиления = 0,1022
SplitInfo = 0,9402
Коэффициент усиления = 0,1087
ВЕТЕР:
Коэффициент усиления = 0,0481
SplitInfo = 0,9852
Коэффициент усиления = 0,0488
ДАННЫЕ:
Outlook Temperature Humidity Wind Play
--------------------------------------------
sun hot 85 low no
sun hot 90 high no
overcast hot 78 low yes
rain sweet 96 low yes
rain cold 80 low yes
rain cold 70 high no
overcast cold 65 high yes
sun sweet 95 low no
sun cold 70 low yes
rain sweet 80 low yes
sun sweet 70 high yes
overcast sweet 90 high yes
overcast hot 75 low yes
rain sweet 80 high no