Является ли регрессия Gradient Boost более точной (более низкая MSE), чем случайный лес?

Я только что создал модель Gradient Boosting, чей прогноз вне выборки хуже, чем у случайного леса. MSE для GBM на 10% выше, чем для случайного леса. Ниже мой пример кода. Я уверен, есть ли в этом что-то неправильное.

gbm1 <- gbm(as.formula(paste0(Y.idx ,'~', paste0(colnames(rf.tmp.train[c(-1,-2)],collapse=""))),
data=rf.tmp.train,distribution="gaussian",n.trees=3000,         
shrinkage=0.001,interaction.depth=1,bag.fraction = 0.5,          
train.fraction = 1,n.minobsinnode = 10, cv.folds = 10,       
keep.data=TRUE, verbose=FALSE,n.cores=1)

person YYY    schedule 09.06.2015    source источник
comment
Вы действительно ожидаете взвешенного ответа с таким количеством (или отсутствием) данных?   -  person IRTFM    schedule 09.06.2015
comment
stackoverflow.com/help/how-to-ask   -  person IRTFM    schedule 12.06.2015


Ответы (1)


По моему опыту работы, gbm обычно работает лучше, чем случайный лес, а случайный лес обычно работает лучше, чем другие алгоритмы. В вашем случае вы можете настроить параметры как для gbm, так и для случайного леса. Для начала я рекомендую пакет Caret, который автоматически выполняет процесс настройки.

Ваше здоровье

person yuanhangliu1    schedule 09.06.2015
comment
Я полагаю, что пытаться ответить на вопрос, когда имеется неадекватная информация, неразумно. На самом деле это стоит только комментария, поскольку вы соглашаетесь с предположениями спрашивающего и не предлагаете никаких конкретных советов. - person IRTFM; 09.06.2015