Предел прогноза при нормальной регрессии и регрессии выживания

Я пытаюсь предсказать, через какое время протекут газовые трубы. Я использовал 15 признаков, самым важным из которых является «год установки трубы». Последние данные об утечке, которые у меня есть, относятся к утечке, которая произошла в 2017 году, и эта труба была установлена ​​в 2009 году. Я знаю, что обычные модели машинного обучения, которые я построил, не смогут хорошо предсказать продолжительность утечки для труб, которые были установлен после 2009 года. Причина, по которой я говорю это, заключается в том, что я сначала сортировал данные на основе их «года установки», а затем провел тестовое разделение поезда, чтобы увидеть, как оно работает при прогнозировании тестового набора данных, я получил % 93 R в квадрате, но когда я повернул функция перетасовки отключена в разделении тестов поезда (это означает, что в отличие от обычного разделения тестов поездов, в котором подмножества выбираются случайным образом, данные будут в порядке первого обучения 80% и последнего тестирования %20), чтобы увидеть, может ли он предсказать трубы, которые их «год установки» не был в модельном обучении, я получил только 30% R в квадрате. Я знаю, что «год установки» — довольно важная характеристика, и модель ML не может предсказать трубы, которые не были обучены в модели для их «года установки».

Я также использую регрессии выживания поверх обычных моделей ML. Я не уверен, будет ли у меня такая же проблема в модели COX PH и других многомерных моделях выживания или нет. Может ли COX PH прогнозировать коэффициент опасности и функцию выживания для труб, которые были установлены после 2009 года?


person Ehsan Estiri    schedule 27.01.2019    source источник
comment
Я рекомендую визуальную проверку диаграмм рассеяния длительности по сравнению с каждой из 15 функций, чтобы определить, какие очевидные преобразования данных, такие как exp, log и т. д., предполагаются данными. Это легко и быстро, и если вы увидите что-то очевидное, это поможет в моделировании.   -  person James Phillips    schedule 28.01.2019
comment
На данный момент это не похоже на вопрос кодирования. Также нет данных или демонстрации начальных усилий по кодированию.   -  person IRTFM    schedule 28.01.2019


Ответы (1)


Сможет ли coxph предсказать коэффициент опасности и функцию выживания для труб, которые были установлены после 2009 года? coxph должен быть в состоянии рассчитать коэффициент опасности и функцию выживания для заданного периода (это то, что должен сделать). Вы можете запустить его и построить KM, чтобы увидеть, имеет ли это смысл, и вы можете использовать результаты.

person Oka    schedule 29.03.2019