Я строю модель gbm, используя h2o. Данные обучения случайным образом разделяются на 70% данных разработки и 30% данных своевременной проверки. Обучающие данные имеют плохую частоту 1,4%, и мне также нужно назначить вес для каждого наблюдения (данные имеют столбец веса). Замечание: модель, построенная с использованием веса, имеет гораздо более высокие характеристики по данным разработки (DEV) по сравнению с моделью, построенной без веса (VAL). Модель, построенная с учетом веса, имеет большую разницу в производительности между данными разработки и своевременной проверки. Например, сборка модели с весом показывает коэффициент захвата ниже 10% верхних.
DEV: 56%
Проверка: 25%
В то время как сборка модели без веса показывает коэффициент захвата ниже 10%:
DEV: 35%
Проверка: 23%
Кажется, что вес использования в этом случае помог повысить производительность модели как при разработке, так и при своевременной проверке данных. Хотите знать, как именно вес используется в воде? С учетом веса, используемого при построении модели, свидетельствует ли большая разница в производительности модели на DEV и VAL более высокую нестабильность построения модели gbm в воде?
Синяя кривая - это DEV, оранжевая кривая - для VAL>
. В случае отсутствия веса потеря журнала для DEV и VAL началась с одной и той же точки. В то время как для взвешенного случая потеря журнала для DEV и VAL началась с двух разных точек. Как интерпретировать эту диаграмму потерь журнала, почему вес в H2O gbm создает такие отличия в выходных данных функции потерь журнала?