Классы баланса при перекрестной проверке

Я хотел бы построить модель GBM с H2O. Мой набор данных несбалансирован, поэтому я использую параметр balance_classes. Для поиска по сетке (настройки параметров) я хотел бы использовать 5-кратную перекрестную проверку. Мне интересно, как H2O справляется с балансировкой классов в этом случае. Будет ли ребалансирован только тренировочный фолд? Я хочу быть уверенным, что тест-фолд не перебалансирован.


person Coco    schedule 15.02.2018    source источник


Ответы (2)


В настройках дисбаланса классов искусственная балансировка набора тестов / валидаций не имеет никакого смысла: эти наборы должны оставаться реалистичными, т.е. вы хотите протестировать производительность своего классификатора в реальных настройках, где, скажем, Отрицательный класс будет включать 99% выборок, чтобы увидеть, насколько хорошо ваша модель справится с предсказанием 1% положительного класса интереса без слишком большого количества ложных срабатываний. Искусственное раздувание класса меньшинства или уменьшение класса большинства приведет к нереалистичным показателям производительности, не имеющим реального отношения к реальной проблеме, которую вы пытаетесь решить.

Для подтверждения представлен Макс Кун, создатель пакета caret R и соавтор (настоятельно рекомендуется) Прикладного прогнозного моделирования учебник в Глава 11: Подвыборка для классовых дисбалансов < / em> caret электронной книги:

Вы бы никогда не захотели искусственно сбалансировать набор тестов; частоты его классов должны соответствовать тому, что можно было бы увидеть «в дикой природе».

Повторная балансировка имеет смысл только в обучающем наборе, чтобы не дать классификатору просто и наивно классифицировать все экземпляры как отрицательные для воспринимаемой точности 99%.

Следовательно, вы можете быть уверены, что в описываемых вами настройках перебалансировка выполняется только для тренировочного набора / складок.

person desertnaut    schedule 15.02.2018
comment
Отлично, поэтому я и задал вопрос. Я хотел быть уверен, что тест-фолд не будет передискретизирован. - person Coco; 15.02.2018
comment
@Coco, пожалуйста, примите ответ - см. Что мне делать, когда кто-то ответит на мой вопрос? - person desertnaut; 22.10.2020

Способ принудительной балансировки заключается в использовании столбцов весов для использования разных весов для разных классов в H2O weights_column

person Alessandro    schedule 15.02.2018