(хотел прокомментировать, но получилось слишком длинно....)
Сводка модели lm сообщает R2 для модели формы (для простоты используется только одна зависимая переменная)
lm(dependent_variable + independent_variable + factor(country))
Выходные данные модели plm сообщают о R2 из модели.
lm(dependent_var_demean ~ independent_var_demean)
Где Independent_var_demean и depend_var_demean рассчитываются путем вычитания конкретных для страны средних значений зависимых и независимых переменных из каждого наблюдения.
Как оказалось, коэффициент регрессии для Independent_var одинаков в обоих случаях. R2 в первой модели намного больше, так как она имеет N+1 объясняющую переменную, тогда как во второй модели только 1.
Какой из R2 тогда «правильный»? Это зависит от контекста. Если вы относитесь к отдельным FE как к мешающим параметрам и интересуетесь только коэффициентом регрессии для Independent_Variable, вам будет более последовательно сообщать R2 из внутренней модели (или «вывода plm»). В некоторых приложениях также могут быть интересны отдельные FE, поскольку они отражают некоторые ненаблюдаемые качества, которые влияют как на зависимые, так и на независимые переменные. В этом случае LSDV R2 (сообщенный lm) может быть более актуальным.
Тем не менее, следует отметить, что в типичных ситуациях с большим N/малым T (т. е. многие единицы наблюдались лишь несколько раз) отдельные оценки КЭ могут быть смещены. Это известно как проблема случайных параметров.
Наконец, я думаю, что мне нужно отдать должное пакету lfe. для выполнения регрессий с фиксированными эффектами. Он очень эффективен при работе с большими панелями, синтаксис, на мой взгляд, лучше, чем в plm, а кластеризованные и надежные стандартные ошибки обрабатываются более элегантно по сравнению с plm. Он также сообщает об обоих маршрутизаторах R2 в итоговом выводе.
person
Otto Kässi
schedule
09.11.2018