Я пытаюсь предсказать, через какое время протекут газовые трубы. Я использовал 15 признаков, самым важным из которых является «год установки трубы». Последние данные об утечке, которые у меня есть, относятся к утечке, которая произошла в 2017 году, и эта труба была установлена в 2009 году. Я знаю, что обычные модели машинного обучения, которые я построил, не смогут хорошо предсказать продолжительность утечки для труб, которые были установлен после 2009 года. Причина, по которой я говорю это, заключается в том, что я сначала сортировал данные на основе их «года установки», а затем провел тестовое разделение поезда, чтобы увидеть, как оно работает при прогнозировании тестового набора данных, я получил % 93 R в квадрате, но когда я повернул функция перетасовки отключена в разделении тестов поезда (это означает, что в отличие от обычного разделения тестов поездов, в котором подмножества выбираются случайным образом, данные будут в порядке первого обучения 80% и последнего тестирования %20), чтобы увидеть, может ли он предсказать трубы, которые их «год установки» не был в модельном обучении, я получил только 30% R в квадрате. Я знаю, что «год установки» — довольно важная характеристика, и модель ML не может предсказать трубы, которые не были обучены в модели для их «года установки».
Я также использую регрессии выживания поверх обычных моделей ML. Я не уверен, будет ли у меня такая же проблема в модели COX PH и других многомерных моделях выживания или нет. Может ли COX PH прогнозировать коэффициент опасности и функцию выживания для труб, которые были установлены после 2009 года?