При обработке данных для линейных моделей нам необходимо включить дополнительный столбец в наш набор данных, как показано ниже.
Зачем нужен этот шаг?
Линия может начинаться только от начала координат без пересечения.
Во-первых, давайте начнем с линейной регрессии в машинном обучении. Мы знаем, что можем проиллюстрировать линейную модель как
Если представить коэффициент и x как матрицу, мы можем изменить формулу на следующую.
Если у нас нет точки пересечения, наша линия может начинаться только из начала координат, таких как (0,0). Оранжевая линия - это обычный метод наименьших квадратов, а зеленая линия не имеет Beta0 (точки пересечения). Мы видим, что зеленая линия не может соответствовать всем данным.
Остатки не будут смещены с перехватом
Поскольку мы уже знаем, что уравнение без пересечения не может соответствовать всем точкам, мы знаем, что невязка будет смещена.
Давай сделаем тест. Сначала мы создаем случайный набор данных с перехватом. Затем мы создаем фиктивно наблюдаемое значение, синхронизируя коэффициенты и набор данных вместе, и добавляем случайную ошибку. Посмотрим на остаточный график.
Из графиков видно, что остатки несмещены.
Давайте попробуем сравнить с набором данных, который не имеет перехвата.
Мы видим, что наши остатки становятся смещенными, потому что наша линия может начинаться только с [0,0,0] в этой формуле.
Есть ли способ пропустить добавление перехвата? Да!! Стандартизация!!
Благодаря стандартизации матрицы нам не нужно добавлять точку пересечения.
Давай попробуем