C4.5 Выберите точку разделения (порог) для непрерывного атрибута

Используя данные «играть в гольф» или «играть в мяч» (перечисленные внизу), чтобы выбрать корневой узел, мы смотрим на Outlook, температуру, влажность и ветер, чтобы увидеть, какой из них имеет самый высокий коэффициент усиления.

Теперь Outlook будет выбран как атрибут с наивысшим коэффициентом усиления. Однако меня смущает то, что влажность (непрерывный атрибут) выбирает точку разделения 80 с коэффициентом усиления = 0,1087, а 65 имеет более высокое значение < strong> GainRatio = 0,1285. Точка разделения 80 действительно имеет более высокое усиление, но не коэффициент усиления.

Я видел, как в литературе говорится примерно: «выберите точку разделения для непрерывного атрибута, который дает наибольший выигрыш» ... мне кажется нелогичным, что точка разделения основана только на усилении, а не на чтобы при сравнении всех атрибутов вы выбираете наивысший коэффициент усиления, который будет следующим узлом принятия решения.

Я надеюсь получить здесь некоторую ясность.

Спасибо.

Расчеты следующие:

ПЕРСПЕКТИВЫ:
Коэффициент усиления = 0,2467
SplitInfo = 1,5774
Коэффициент усиления = 0,1564

ТЕМПЕРАТУРА:
Коэффициент усиления = 0,0292
SplitInfo = 1,5566
Коэффициент усиления = 0,0187

ВЛАЖНОСТЬ:
Возможные точки разделения = {65, 70, 75, 78, 80, 85, 90, 95, 96}

Split 65:
Коэффициент усиления = 0,0477
SplitInfo = 0,3712
Коэффициент усиления = 0,1285

Split 80:
Коэффициент усиления = 0,1022
SplitInfo = 0,9402
Коэффициент усиления = 0,1087

ВЕТЕР:
Коэффициент усиления = 0,0481
SplitInfo = 0,9852
Коэффициент усиления = 0,0488

ДАННЫЕ:

Outlook  Temperature  Humidity  Wind    Play
--------------------------------------------
sun        hot          85      low     no
sun        hot          90      high    no
overcast   hot          78      low     yes
rain       sweet        96      low     yes
rain       cold         80      low     yes
rain       cold         70      high    no
overcast   cold         65      high    yes
sun        sweet        95      low     no
sun        cold         70      low     yes
rain       sweet        80      low     yes
sun        sweet        70      high    yes
overcast   sweet        90      high    yes
overcast   hot          75      low     yes
rain       sweet        80      high    no

person GreekFire    schedule 07.03.2015    source источник
comment
Это интересный вопрос. Возможно, его также можно было бы спросить на stats.stackexchange.com   -  person Cesar    schedule 08.03.2015


Ответы (1)


Коэффициент передачи информации используется для уменьшения смещения в сторону атрибутов с большим количеством значений, принимая во внимание количество и размер ветвей при выборе атрибута. Здесь мы уже выбрали атрибут. Таким образом, мы должны попытаться максимизировать получение информации, а не коэффициент передачи информации.

person Saurabh Verma    schedule 20.02.2017