Объяснение линейной регрессии с примером

Во-первых, что линейно?

Что-то, что следует некоторому порядку или последовательности.

Например: 2,4,6,8,10 (увеличение на 2)

Далее, что такое регресс?

В статистике регрессия — это отношение между одной выходной зависимой переменной и рядом входных независимых переменных.

Например: предположим, вы хотите предсказать рост на основе веса. У вас есть набор данных о росте и весе 4 человек. Вы предскажете?. Да, вы будете предсказывать, но уровень конфиденциальности меньше.

Что, если я дам 1000 данных, 10000 данных, 100000 данных. Таким образом, когда данные увеличиваются, ваш уровень уверенности увеличивается. Если вы можете получить такое количество данных, вы формируете шаблон в своем уме и предсказываете высоту. Так много шаблонов может быть сформировано на основе множества внешних факторов, таких как рост родителей, вес, пищевые привычки, профессия и т. Д. Но это подпадает под понятие множественной линейной регрессии.

Опять же, это прогноз, ваш результат не может быть гарантирован на 100%. Потому что мы не можем предсказать природу. Это игра в Бога 😎

Теперь подойдите к машине. Применение такого рода знаний является утомительной задачей. Теперь информатика заимствовала концепцию линейной регрессии из статистики для достижения этих знаний.

Сегодня я говорю о простой линейной регрессии. Итак, есть две переменные (одна независимая и одна зависимая). Итак, большинство из вас знает уравнение:

y=mx+b

Если вам нужны дополнительные разъяснения о y=mx+b, перейдите по ссылке ниже.

https://www.mathsisfun.com/equation_of_line.html

y — Зависимая переменная

x — Независимая переменная

м — уклон

б — смещение

Предположим, вы хотите предсказать рост на основе веса данного человека. Итак, здесь рост равен y, а вес равен x. Так что насчет m и c. Таким образом, прогнозирование лучших m и c для данного набора данных является проблемой. Формула расчета m и bis

Рассмотрим следующие данные

Когда мы строим график для этой точки

Теперь вычисляем m и b

x-x_mean равно (1-4,6, 3-4,6, 4-4,6, 6-4,6, 9-4,6)=(-3,6,-1,6,-0,6,1,4, 4,4)

y-y_mean равно (2–11,2, 4–11,2, 9–11,2, 16–11,2, 25–11,2) = (-9,2, -7,2, -2,2, 4,8, 13,8)

Подставляем все полученные значения

m=5.857

b=-26.94

Итак, уравнение y=5,857x-26,94. Теперь для этого уравнения график выглядит как

Вы можете подумать, почему эта линия точно не пересекает все точки. В начале я говорю, что прогноз никогда не может быть 100%. Для этих данных эта линия лучше всего. Если я даю такие данные, как x=(1,2,3,4,5) и y=(1,4,9,16,25), то линия точно соответствует этой точке. Потому что для x оно увеличивается на единицу, а y является квадратом x. Итак, мы нашли закономерность. Итак, для 6 он предсказывает 36. Но в предоставленных данных я не могу найти точную закономерность. Потому что x внезапно увеличивается на единицу и два, а также y не является квадратом x.

Если мы подставим значения x в уравнение

x=1 y=-21,083 (но фактическое значение y равно 2)

x=3 y=-9,369 (но фактическое значение y равно 4)

x=4 y=-3,512 (но фактическое значение y равно 9)

x=6 y=8,202 (но фактическое значение y равно 16)

x=9 y=25,773 (фактическое значение y равно 25, что близко) на графике также эта точка ближе к прямой.

Наша модель такая бедная. В 5 значениях он фактически предсказывает 1 правильное значение. Мы также не обвиняем машину, потому что мы даем только 5 данных. Из этого он учится и правильно прогнозирует 1 значение хорошей работы. Ему нужно больше данных!

Это случай UNDERFIT. Модель не может предсказать обучающие данные. В реальном времени подумайте, если у нас есть 1000 данных, мы тратим не полные данные для обучения, мы разделяем их, например, на 800 (для обучения) 200 (для целей тестирования). После обучения модели мы передаем эти 200 данных в модель и наблюдаем за результатом. Этот вывод сравнивается с исходным выводом для проверки точности.

Если модель не работает на обучающих данных (например, мы), она попадает в категорию UNDERFIT.

Если модель правильно предсказывает обученные данные и терпит неудачу с новыми данными, она попадает под (OVERFIT)

Есть три условия для измерения того, насколько наша модель безошибочна:

Средняя абсолютная ошибка, среднеквадратическая ошибка, среднеквадратическая ошибка. Формула для расчета вышеуказанных условий

Вышеупомянутая модель получает очень низкую оценку за приведенный выше расчет. Если вы получили 0, значит, ваша модель имеет нулевую процентную ошибку. Но это может привести к проблеме переобучения. Я получил среднеквадратичное значение около 180. Вы можете подумать, как повысить эффективность без меньших данных тренера. Имеется концепт.

Путем увеличения порядка уравнения, такого как второй порядок, третий порядок, четвертый порядок. Я обсужу это в будущем.

Объяснение линейной регрессии с примером

Похожие вопросы