Взаимодействия в модели пропорциональных рисков Кокса: проблема между контрастами и двумя категориальными факторами

Мне нужна помощь, чтобы понять, как работает функция coxph () в R, и как правильно интерпретировать вывод.

Я пытаюсь запустить модель пропорциональных рисков Кокса на наборе данных «анализа выживаемости» с двумя факторами: полом и генотипом. Фактор пола имеет две категориальные переменные: «m» для мужчин и «f» для женщин. Фактор генотипа имеет три категориальные переменные: «Ctrl», «nKO», «CRE_Ctrl». Я хочу увидеть, есть ли взаимодействие, поэтому я сделал:

library(survival)
Survival = Surv(time = D$Age, event = D$outcome) #D is my dataframe, Age is time of death, outcome is the column for censored individuals.

Кроме того, я хочу увидеть следующие контрасты: «nKO vs Ctrl» и «nKO vs CRE_Ctrl». Таким образом, я установил nKO в качестве базовой линии для моих контрастов, используя эту строку:

D$Genotype = relevel(D$Genotype, ref = "nKO")
colnames(contrasts(D$Genotype)) = c(' (nKO vs CRE_Ctrl)', ' (nKO vs Ctrl)')

Итак, в конце я запускаю эту последнюю строку:

coxph(data = mydata, formula = Survival ~ Sex * Genotype)

Результат выглядит так:

                                   coef exp(coef) se(coef)      z        p
Sexm                            -0.5769    0.5616   0.2294 -2.514 0.011925
Genotype (nKO vs CRE_Ctrl)      -0.9983    0.3685   0.2593 -3.850 0.000118
Genotype (nKO vs Ctrl)          -0.4072    0.6655   0.2461 -1.654 0.098034
Sexm:Genotype (nKO vs CRE_Ctrl)  0.5940    1.8111   0.3483  1.705 0.088147
Sexm:Genotype (nKO vs Ctrl)      0.5607    1.7520   0.3444  1.628 0.103539

Ладно, похоже, у меня есть все, что я хочу. Однако я заметил одну вещь! Когда я меняю базовую линию для фактора пола на «m» вместо «f», как указано выше, я получаю другой результат:

D$Sex = relevel(D$Sex, ref = "m")
coxph(data = D, formula = Survival ~ Sex * Genotype)

                                   coef exp(coef) se(coef)      z      p
Sexf                             0.5769    1.7805   0.2294  2.514 0.0119
Genotype (nKO vs CRE_Ctrl)      -0.4044    0.6674   0.2438 -1.658 0.0972
Genotype (nKO vs Ctrl)           0.1536    1.1660   0.2406  0.638 0.5232
Sexf:Genotype (nKO vs CRE_Ctrl) -0.5940    0.5521   0.3483 -1.705 0.0881
Sexf:Genotype (nKO vs Ctrl)     -0.5607    0.5708   0.3444 -1.628 0.1035

Вы можете видеть, что у меня есть противоположный вывод для Sexf, Sexf: Genotype (nKO vs CRE_Ctrl) и Sexf: Genotype (nKO vs Ctrl), что я понимаю. Но не для Genotype (nKO vs CRE_Ctrl), Genotype (nKO vs Ctrl), что я не понимаю. Итак, я не понимаю, что здесь происходит. Почему мои контрасты для фактора генотипа без взаимодействий, кажется, зависят от исходного уровня из фактора пола? В самом деле, вы даже можете видеть, что значения p значимы с 'f' в качестве базовой линии (первый вывод coxph) для контрастов моих генотипов, тогда как значения p не значимы, когда 'm' является базовой линией (второй вывод coxph). Итак, какому из них доверять?

Вы можете объяснить мне, почему это происходит? Это мой первый анализ выживания, и я могу не знать многих вещей, касающихся этого типа анализов.

Заранее благодарим за ответы,


person CroixJeremy_2    schedule 28.04.2020    source источник


Ответы (1)


Вы делаете частую ошибку. Интерпретация модельных прогнозов для моделей взаимодействия не должна фокусироваться на интерпретации основных эффектов. (К сожалению, этот факт не понимают многие учителя статистики, и довольно часто можно услышать, как даже опытные пользователи статистики пытаются говорить о значении коэффициентов основных эффектов в терминах взаимодействия.) Не существует «контрастов для фактора генотипа без взаимодействий». , хотя это было бы в модели без взаимодействия. Поскольку вы построили модель взаимодействия, коэффициенты генотипа можно интерпретировать только при одновременном указании одного или другого пола. Вместо этого вам следует сосредоточиться на прогнозах и сравнении конкретной комбинации переменных. Это то, что подразумевает модель взаимодействия, то есть вам нужно знать обе переменные одновременно. У вас действительно есть 6 различных возможных ситуаций, поэтому, когда вы выбираете новую эталонную ситуацию, неудивительно, что все относительные риски по сравнению с новой эталонной ситуацией все меняются.

Коэффициенты пола неявно сопоставляются с одним и тем же референтным уровнем переменной Генотип. Вот что позволяет абсолютным значениям быть одинаковыми. В случае nKO vs CRE_Ctrl обратите внимание, что -0,4044 -0,5940 равно -0,9984, что совпадает с -0,9983 с точностью до ошибки округления. И для генотипа (nKO vs Ctrl); -0,4072 + 0,5607 равно 0,1536 с точностью до ошибки округления. Вы смотрите на те же различия в масштабе журнала, но с «разных точек зрения».

Если бы у нас были данные для работы, мы могли бы лучше проиллюстрировать это, сделав такие прогнозы.

person IRTFM    schedule 29.04.2020
comment
Спасибо за быстрый ответ. Вот мой фрейм данных, доступный на Github: github.com/CroixJeremy2/Data-frame- для переполнения стека. Так что вы можете лучше проиллюстрировать, как вы упомянули. Итак, насколько я понял, у меня нет доступа к контрастам для фактора генотипа, когда я запускаю модель с взаимодействием. Так что я должен делать? Запустить модель без взаимодействия, чтобы получить доступ к контрастам, а затем запустить модель с взаимодействием, чтобы увидеть взаимодействия? Вы сказали, что предсказания и сравнения определенной комбинации переменных, вы можете объяснить мне, что это будет? - person CroixJeremy_2; 29.04.2020
comment
Знаете ли вы ссылку или веб-страницу, где я мог бы узнать больше об этом типе анализа с помощью coxph () с моделями, которые включают взаимодействия и контрасты? Потому что у меня такое ощущение, что я не все понимаю, и что тема сложная, поэтому я беспокоюсь, что неправильно интерпретирую свои данные ... - person CroixJeremy_2; 29.04.2020
comment
Вы можете начать с stats.idre .ucla.edu / r / faq / how-can-i-test-contrasts-in-r. Одним из форумов SE, который больше соответствует вашим надеждам на объяснение связи между результатами и теорией, является CrossValidated.com. Я часто рекомендовал Стратегии регрессионного моделирования Фрэнка Харрелла людям, которые хотят более глубокого изучения теории, хотя я не могу вспомнить, подробно ли рассматривается эта тема. - person IRTFM; 06.05.2020