Я использую пакет caret
в R
для контролируемого многомерного анализа. Я пытаюсь добавить в свой сценарий некоторые функции, которые позволят получать воспроизводимые результаты при каждом запуске сценария.
У меня есть эта настройка для использования 2 моделей классификации (каждая модель запускается отдельно, а не как enesmble):
library(caret)
load.data = ....
cleaned.data = cleaning(load.data)
mycontrol = trainControl(...)
train, test = createDatapartition(...)
model1 = train(...,
data=train, ...,
trControl=mycontrol,
preprocess=c('center'))
model2 = train(...,
data=train, ...,
trControl=mycontrol,
preprocess=c('pca'))
feature.importances = ...
summary(resamples(list(m1=model1,m2=model2)))
learing_curve_dat(...) #see link 1. below.
predict()
Evaluate(....) #see link 2. below
Где в этом конвейере я должен использовать set.seed(#)
и что должен #
для получения воспроизводимых результатов при каждом запуске скрипта - или я просто выбираю любое значение для #
случайным образом?
Ссылки: