Я хотел бы построить модель GBM с H2O. Мой набор данных несбалансирован, поэтому я использую параметр balance_classes. Для поиска по сетке (настройки параметров) я хотел бы использовать 5-кратную перекрестную проверку. Мне интересно, как H2O справляется с балансировкой классов в этом случае. Будет ли ребалансирован только тренировочный фолд? Я хочу быть уверенным, что тест-фолд не перебалансирован.
Классы баланса при перекрестной проверке
Ответы (2)
В настройках дисбаланса классов искусственная балансировка набора тестов / валидаций не имеет никакого смысла: эти наборы должны оставаться реалистичными, т.е. вы хотите протестировать производительность своего классификатора в реальных настройках, где, скажем, Отрицательный класс будет включать 99% выборок, чтобы увидеть, насколько хорошо ваша модель справится с предсказанием 1% положительного класса интереса без слишком большого количества ложных срабатываний. Искусственное раздувание класса меньшинства или уменьшение класса большинства приведет к нереалистичным показателям производительности, не имеющим реального отношения к реальной проблеме, которую вы пытаетесь решить.
Для подтверждения представлен Макс Кун, создатель пакета caret
R и соавтор (настоятельно рекомендуется) Прикладного прогнозного моделирования учебник в Глава 11: Подвыборка для классовых дисбалансов < / em> caret
электронной книги:
Вы бы никогда не захотели искусственно сбалансировать набор тестов; частоты его классов должны соответствовать тому, что можно было бы увидеть «в дикой природе».
Повторная балансировка имеет смысл только в обучающем наборе, чтобы не дать классификатору просто и наивно классифицировать все экземпляры как отрицательные для воспринимаемой точности 99%.
Следовательно, вы можете быть уверены, что в описываемых вами настройках перебалансировка выполняется только для тренировочного набора / складок.
Способ принудительной балансировки заключается в использовании столбцов весов для использования разных весов для разных классов в H2O weights_column