Зачем добавлять столбец перехвата в наборы данных

При обработке данных для линейных моделей нам необходимо включить дополнительный столбец в наш набор данных, как показано ниже.

Зачем нужен этот шаг?

Линия может начинаться только от начала координат без пересечения.

Во-первых, давайте начнем с линейной регрессии в машинном обучении. Мы знаем, что можем проиллюстрировать линейную модель как

Если представить коэффициент и x как матрицу, мы можем изменить формулу на следующую.

Если у нас нет точки пересечения, наша линия может начинаться только из начала координат, таких как (0,0). Оранжевая линия - это обычный метод наименьших квадратов, а зеленая линия не имеет Beta0 (точки пересечения). Мы видим, что зеленая линия не может соответствовать всем данным.

Остатки не будут смещены с перехватом

Поскольку мы уже знаем, что уравнение без пересечения не может соответствовать всем точкам, мы знаем, что невязка будет смещена.

Давай сделаем тест. Сначала мы создаем случайный набор данных с перехватом. Затем мы создаем фиктивно наблюдаемое значение, синхронизируя коэффициенты и набор данных вместе, и добавляем случайную ошибку. Посмотрим на остаточный график.

Из графиков видно, что остатки несмещены.

Давайте попробуем сравнить с набором данных, который не имеет перехвата.

Мы видим, что наши остатки становятся смещенными, потому что наша линия может начинаться только с [0,0,0] в этой формуле.

Есть ли способ пропустить добавление перехвата? Да!! Стандартизация!!

Благодаря стандартизации матрицы нам не нужно добавлять точку пересечения.

Давай попробуем

Зачем добавлять столбец перехвата в наборы данных

Линия может начинаться только от начала координат без пересечения.

Остатки не будут смещены с перехватом

Есть ли способ пропустить добавление перехвата? Да!! Стандартизация!!

Похожие вопросы