Линейная регрессия: статистический подход для моделирования взаимосвязи между зависимой переменной с заданным набором независимых переменных (Кумар).

Представьте себя катающимся на коньках. Вы постоянно двигаетесь и, оглядываясь назад, видите свою тень. Ваша тень может двигаться не так, как вы, но было бы безумием сказать, что у вас нет тени или что то, что вы делаете, прямо не влияет на нее, верно?

Упрощенное определение линейной регрессии - это всего лишь переменная, на которую влияет другой. Он использует данные «независимых» (фигуристов), чтобы предсказать, как это повлияет на «зависимых» (теневых). Возможно, он не такой прямой, как этот пример, но он всегда направлен на поиск правильной «связи» (линии) между данными.

Очень стереотипная простая модель линейной регрессии будет выглядеть так:

Три основных применения регрессионного анализа: (1) определение силы предикторов, (2) прогнозирование эффекта и (3) прогнозирование тенденций (Статистическое решение).

Цель линейной регрессии - найти линию, которая помогает нам прогнозировать с минимально возможной ошибкой.

Стандартный подход к решению этого типа проблемы - определить функцию ошибок (также называемую функцией стоимости), которая измеряет, насколько хороша данная строка (Недрих). Здесь и появляется градиентный спуск.

Градиентный спуск: метод минимизации потерь путем вычисления градиентов потерь относительно параметров модели, обусловленных данными обучения. Неформально, градиентный спуск итеративно корректирует параметры, постепенно находя наилучшую комбинацию весов и смещения для минимизации потерь (Глоссарий машинного обучения Google).

Функцию ошибок (функцию стоимости) можно вычислить по-разному, но наиболее распространенный метод называется среднеквадратичной ошибкой (MSE).

Я знаю, что формула выглядит пугающей, но все это означает, что это сумма всех (прогнозируемое значение - наблюдаемое значение) в квадрате. Чем больше MSE, тем больше ошибка.

Дисперсия - это мера того, насколько наблюдаемые значения отличаются от среднего предсказанного значения, т. е. их разницы от среднего предсказанного значения (Rowe) .

Когда дело доходит до линейной регрессии, иметь значение MSE, равное 0, было бы почти невозможно (0 означает, что прогнозируемое значение «точно такое же», как наблюдаемое значение), но цель состоит в том, чтобы оно было как можно ближе к 0, насколько это возможно. возможно.

Scikit-learn используется для построения линейных регрессий с помощью Python, и я хотел бы рассказать, как его использовать, в своей следующей статье.

Ресурсы:

  1. Введение в градиентный спуск и линейную регрессию »Мэтт Недрих
  2. Пример линейной регрессии »от ScikitLearn
  3. « Линейная регрессия с использованием алгоритма градиентного спуска: ваш первый шаг к машинному обучению », автор Souman Ro y