Может ли R каким-либо образом «изящно» игнорировать ошибки, которые обычно приводят к полному сбою прогноза, когда в тестовом наборе появляются новые уровни факторов? Обычно, если есть только одно неверное значение, вся операция не работает.
Чтобы предсказания происходили при наличии действительных значений, но при появлении новых уровней факторов возникала бы ошибка?
действительно дрянной пример, но... вот к чему я клоню
library(randomForest)
df=mtcars
df$vs=99
df[1,8]=0 # vs column
df$vs=factor(df$vs)
mtcars$vs=factor(mtcars$vs)
fit=lm(mpg~., data=mtcars)
# fit above works with explanation given below, but fit2 fails with randomforest? why?
fit2 = randomForest(mpg~., data=mtcars)
df$help=predict(fit, df) # first row should work others should error gracefully maybe with a NA?
Первый ответ, который я получил, был отличным. Тем не менее, это все еще не работает для менее упрощенного примера с randomForest выше.