R: разница между моделями plm и LSDV

Я только начинаю разбираться с фиксированными эффектами, поэтому извиняюсь, если вопросы излишни. На основе слайдов Panel101 Оскара Торреса-Рейна (https://www.princeton.edu/~otorres/Panel101R.pdf), я сравниваю вывод двух разных кодов:

  1. lsdv <- lm(formula=dependent_variable~poly(log(independent_variable1)degree = 2, raw=TRUE) + poly(log(independent_variable2)degree = 2, raw=TRUE) + factor(country) -1, data=mydata)

  2. plm <- plm(formula=dependent_variable ~ poly(log(independent_variable1)degree = 2, raw=TRUE) + poly(log(independent_variable2), data=mydata, model="within, index=c(country)

В соответствии со слайдами Panel101 обе модели дают одинаковые коэффициенты, но скорректированный R2 сильно различается (0,954 против 0,119).

Я что-то не так делаю или как это объяснить?

Спасибо!


r plm
person M.Power    schedule 09.11.2018    source источник
comment
Для фиксированных эффектов вы выполняете регрессию на преобразованных данных, поэтому зависимая переменная $[y_{it} - \overline{y_i}]$. С LSDV вы используете исходные данные наблюдений (и добавляете отдельные фиктивные данные). Из-за преобразования в FE изменяется изменчивость зависимой переменной, а также такие статистические данные, как $R^2$.   -  person Tomas    schedule 09.11.2018


Ответы (1)


(хотел прокомментировать, но получилось слишком длинно....)

Сводка модели lm сообщает R2 для модели формы (для простоты используется только одна зависимая переменная)

lm(dependent_variable + independent_variable + factor(country))

Выходные данные модели plm сообщают о R2 из модели.

lm(dependent_var_demean ~ independent_var_demean)

Где Independent_var_demean и depend_var_demean рассчитываются путем вычитания конкретных для страны средних значений зависимых и независимых переменных из каждого наблюдения.

Как оказалось, коэффициент регрессии для Independent_var одинаков в обоих случаях. R2 в первой модели намного больше, так как она имеет N+1 объясняющую переменную, тогда как во второй модели только 1.

Какой из R2 тогда «правильный»? Это зависит от контекста. Если вы относитесь к отдельным FE как к мешающим параметрам и интересуетесь только коэффициентом регрессии для Independent_Variable, вам будет более последовательно сообщать R2 из внутренней модели (или «вывода plm»). В некоторых приложениях также могут быть интересны отдельные FE, поскольку они отражают некоторые ненаблюдаемые качества, которые влияют как на зависимые, так и на независимые переменные. В этом случае LSDV R2 (сообщенный lm) может быть более актуальным.

Тем не менее, следует отметить, что в типичных ситуациях с большим N/малым T (т. е. многие единицы наблюдались лишь несколько раз) отдельные оценки КЭ могут быть смещены. Это известно как проблема случайных параметров.

Наконец, я думаю, что мне нужно отдать должное пакету lfe. для выполнения регрессий с фиксированными эффектами. Он очень эффективен при работе с большими панелями, синтаксис, на мой взгляд, лучше, чем в plm, а кластеризованные и надежные стандартные ошибки обрабатываются более элегантно по сравнению с plm. Он также сообщает об обоих маршрутизаторах R2 в итоговом выводе.

person Otto Kässi    schedule 09.11.2018