Что такое коллинеарность?

Коллинеарность (также известная как мультиколлинеарность) — это явление в статистике, когда две или более независимых переменных в регрессионной модели сильно коррелируют друг с другом.

Почему важно учитывать коллинеарность?

Коллинеарность между независимыми переменными приводит к нестабильным и ненадежным оценкам коэффициентов регрессии и завышенным проблемам стандартной ошибки в регрессионном анализе, что затрудняет интерпретацию результатов и делает точные прогнозы.

Уравнение линейной регрессии Y = m0+m1X1+m2X2+m3X3+c

Цель модели линейной регрессии состоит в том, чтобы найти линию наилучшего соответствия для большинства выборок данных, и определение коэффициентов регрессии mo, m1, m2 является ее основным принципом.

Если существует корреляция между независимыми переменными X1, X2, X3, то увеличение или уменьшение одного коэффициента регрессии повлияет на другие и, таким образом, приведет к нестабильным и ненадежным оценкам коэффициентов регрессии.

Как найти коллинеарность?

Коллинеарность можно определить с помощью различных методов, таких как корреляционная матрица, коэффициент инфляции дисперсии (VIF) и номер условия.

Корреляционная матрица:

Матрица корреляции помогает понять взаимосвязь между переменными. Связь между переменными рассчитывается по формуле Ковариация между обеими переменными, деленная на стандартное отклонение переменных.

Ниже приведена карта корреляции для набора данных о жилье для проверки связи между переменными.

Коэффициент инфляции дисперсии (VIF):

Коэффициент инфляции дисперсии (VIF) рассчитывается относительно значения R2. Подсчитано, что VIF более 15, как правило, плохо подходит для обучения модели на этих независимых переменных. VIF, равный 1, описывает отсутствие связи между переменными и увеличивается с увеличением отношения.

Как решить проблему коллинеарности?

Когда коллинеарность обнаруживается в регрессионной модели, ее можно решить с помощью различных методов, таких как удаление одной из коррелирующих переменных, объединение переменных или использование метода регуляризации, такого как регрессия гребня или регрессия лассо.

В данных, с которыми мы работали, TotRms AbvGrd и Garage Area были удалены, поскольку эти переменные коллинеарны с Bedroom AbvGrd и Garage Cars.