Методы регрессии являются одним из самых популярных статистических методов, используемых для прогнозного моделирования и задач интеллектуального анализа данных. В среднем специалисты по аналитике знают только 2–3 типа регрессии, которые обычно используются в реальном мире. Это линейная и логистическая регрессия. Но дело в том, что существует более 10 типов алгоритмов регрессии, предназначенных для различных видов анализа. Каждый тип имеет свое значение. Каждый аналитик должен знать, какую форму регрессии использовать в зависимости от типа данных и распределения.

Что такое регрессионный анализ?

Возьмем простой пример. Предположим, ваш менеджер попросил вас спрогнозировать годовой объем продаж. Факторов (Функций), влияющих на продажи, может быть сотня. В этом случае продажи являются вашей зависимой переменной. Характеристики, влияющие на продажи, являются независимыми переменными. Регрессионный анализ поможет вам решить эту проблему.

Проще говоря, регрессионный анализ используется для моделирования связи между зависимой переменной и одной или несколькими независимыми переменными. (Прослушивание данных….)

Это помогает нам найти решение следующих проблем:

  1. Какие из характеристик оказывают существенное влияние на продажи.
  2. Что является наиболее важными особенностями продаж
  3. Как функции взаимодействуют друг с другом
  4. Какими будут годовые продажи в следующем году.

Терминология, связанная с регрессионным анализом

1. Выбросы
Предположим, что в наборе данных есть наблюдение, которое имеет очень высокое или очень низкое значение по сравнению с другими наблюдениями в данных, т. е. оно не принадлежит совокупности, такое наблюдение называется выбросом. Простыми словами, это экстремальная ценность. Выброс — это проблема, потому что во многих случаях он ухудшает результаты, которые мы получаем.

2. Мультиколлинеарность
Когда независимые переменные сильно коррелируют друг с другом, говорят, что переменные мультиколлинеарны. Многие типы методов регрессии предполагают, что мультиколлинеарность не должна присутствовать в наборе данных. Это потому, что это вызывает проблемы при ранжировании переменных в зависимости от их важности. Или затрудняет выбор наиболее важной независимой переменной (фактора).

3. Гетероскедастичность
Когда изменчивость зависимой переменной неодинакова для значений независимой переменной, это называется гетероскедастичностью. Пример. По мере увеличения дохода увеличивается изменчивость потребления продуктов питания. Более бедный человек будет тратить довольно постоянную сумму, всегда питаясь недорогой пищей; более богатый человек может иногда покупать недорогую еду, а иногда есть дорогую еду. Люди с более высокими доходами демонстрируют большую изменчивость потребления продуктов питания.

4. Недообучение и переоснащение
Когда мы используем ненужные независимые переменные, это может привести к переоснащению. Переобучение означает, что наш алгоритм хорошо работает на тренировочном наборе, но не может работать лучше на тестовых наборах. Это также известно как проблема высокой дисперсии.

Когда наш алгоритм работает настолько плохо, что не может хорошо соответствовать даже обучающей выборке, говорят, что он недооценивает данные. Это также известно как проблема высокого смещения.

На следующей диаграмме мы видим, что подбор линейной регрессии (прямая линия на рис. 1) не соответствует данным, т. Е. Это приведет к большим ошибкам даже в обучающем наборе. Использование полиномиальной подгонки на рис. 2 является сбалансированным, т. е. такая подгонка может хорошо работать на обучающем и тестовом наборах, в то время как на рис. 3 подгонка приведет к низким ошибкам в обучающем наборе, но не будет хорошо работать на тестовом наборе.

Регрессия: недообучение и переоснащение

Типы регрессии

Каждый метод регрессии имеет некоторые связанные с ним допущения, которые нам необходимо выполнить, прежде чем приступать к анализу. Эти методы различаются типом зависимых и независимых переменных и распределением.

1. Линейная регрессия

Это простейшая форма регрессии. Это метод, в котором зависимая переменная является непрерывной по своей природе. Предполагается, что связь между зависимой переменной и независимыми переменными носит линейный характер. Мы можем заметить, что данный график представляет собой некоторую линейную зависимость между пробегом и водоизмещением автомобилей. Зеленые точки — это фактические наблюдения, а подогнанная черная линия — это линия регрессии.

Регрессионный анализ

Когда у вас есть only 1 independent variable и 1 зависимая переменная, это называется простой линейной регрессией.
Когда у вас есть more than 1 independent variable и 1 зависимая переменная, это называется множественной линейной регрессией.

Уравнение множественной линейной регрессии приведено ниже —

Здесь «y» — оцениваемая зависимая переменная, X — независимые переменные, а ε — член ошибки. βi — коэффициенты регрессии.

Допущения линейной регрессии:

  1. Между независимыми и зависимыми переменными должна быть линейная связь.
  2. Никаких посторонних предметов быть не должно.
  3. Отсутствие гетероскедастичности
  4. Выборочные наблюдения должны быть независимыми.
  5. Условия ошибки должны быть нормально распределены со средним значением 0 и постоянной дисперсией.
  6. Отсутствие мультиколлинеарности и автокорреляции.

Оценка параметров
Для оценки коэффициентов регрессии βi мы используем принцип наименьших квадратов, который заключается в минимизации суммы квадратов из-за ошибок, т.е.

Решая приведенное выше уравнение математически, мы получаем коэффициенты регрессии как:

Интерпретация коэффициентов регрессии
Рассмотрим пример, где зависимой переменной являются оценки, полученные учащимся, а объясняющими переменными являются количество часов обучения и количество часов. посещаемых занятий. Предположим, что при подборе линейной регрессии мы получили линейную регрессию как:

Полученные оценки = 5 + 2 (количество часов обучения) + 0,5 (количество посещенных занятий)

Таким образом, мы можем иметь коэффициенты регрессии 2 и 0,5, которые можно интерпретировать как:

  1. Если нет. изучаемых часов и нет. классов равно 0, то студент получит 5 баллов.
  2. Держать нет. количество занятий, посещаемых постоянно, если студент занимается на один час больше, то на экзамене он получает на 2 балла больше.
  3. Точно так же сохраняя нет. часов занятий постоянно, если студент посещает еще одно занятие, то он наберет на 0,5 балла больше.

2. Полиномиальная регрессия

Это метод подбора нелинейного уравнения с помощью полиномиальных функций независимой переменной.
На приведенном ниже рисунке вы можете видеть, что красная кривая соответствует данным лучше, чем зеленая кривая. Следовательно, в ситуациях, когда связь между зависимой и независимой переменной кажется нелинейной, мы можем использовать модели полиномиальной регрессии.

Таким образом, многочлен степени k от одной переменной записывается так:

Здесь мы можем создавать новые функции, такие как

и может соответствовать линейной регрессии аналогичным образом.

В случае нескольких переменных, скажем, X1 и X2, мы можем создать третью новую функцию (скажем, X3), которая является произведением X1 и X2, т.е.

Отказ от ответственности: следует иметь в виду, что создание ненужных дополнительных функций или подбор полиномов более высокой степени может привести к переобучению.

Логистическая регрессия

В логистической регрессии зависимая переменная носит бинарный характер (имеет две категории). Независимые переменные могут быть непрерывными или бинарными. В полиномиальной логистической регрессии у вас может быть более двух категорий в вашей зависимой переменной.
Вот моя модель:

уравнение логистической регрессии
Почему мы не используем линейную регрессию в этом случае?

  • Предположение о гомоскедастичности нарушается.
  • Ошибки не распределяются нормально
  • y следует биномиальному распределению и, следовательно, не является нормальным.

Примеры

  • Кадровая аналитика. ИТ-фирмы нанимают большое количество людей, но одна из проблем, с которыми они сталкиваются, заключается в том, что после принятия предложения о работе многие кандидаты не присоединяются к ним. Таким образом, это приводит к перерасходу средств, потому что им приходится повторять весь процесс снова. Теперь, когда вы получаете заявку, можете ли вы на самом деле предсказать, может ли этот кандидат присоединиться к организации (бинарный результат — присоединиться / не присоединиться).
  • Выборы. Предположим, нас интересуют факторы, влияющие на победу политического кандидата на выборах. Переменная результата (ответа) является двоичной (0/1); победа или поражение. Представляющие интерес переменные-предикторы — это сумма денег, потраченная на кампанию, и количество времени, потраченного на негативную кампанию.

Прогнозирование категории зависимой переменной для заданного вектора X независимых переменных
С помощью логистической регрессии мы имеем:

P(Y=1) = exp(a + BₙX) / (1+ exp(a + BₙX))

Таким образом, мы выбираем отсечку вероятности, скажем, «p», и если P(Yi = 1) > p, то мы можем сказать, что Yi принадлежит классу 1, в противном случае 0.

Интерпретация коэффициентов логистической регрессии (концепция отношения шансов)

Если мы возьмем экспоненту коэффициентов, то получим отношение шансов для i-й объясняющей переменной. Предположим, что отношение шансов равно двум, тогда шанс события в 2 раза больше, чем шанс не события. Предположим, что зависимая переменная — это отток клиентов (будет ли клиент поддерживать отношения с компанией), а независимая переменная — это статус гражданства (национальный / иностранный). Шансы на выбывание экспатов в 3 раза выше, чем шансы выбывания соотечественников.

Квантильная регрессия

Квантильная регрессия является расширением линейной регрессии, и мы обычно используем ее, когда в данных существуют выбросы, высокая асимметрия и гетероскедастичность.

В линейной регрессии мы прогнозируем среднее значение зависимой переменной для заданных независимых переменных. Поскольку среднее значение не описывает все распределение, его моделирование не является полным описанием отношений между зависимыми и независимыми переменными. Таким образом, мы можем использовать квантильную регрессию, которая предсказывает квантиль (или процентиль) для заданных независимых переменных.

Термин «квантиль» аналогичен термину «процентиль».

Основная идея квантильной регрессии.
В квантильной регрессии мы пытаемся оценить квантиль зависимой переменной с учетом значений X. Обратите внимание, что зависимая переменная должна быть непрерывной.

Модель квантильной регрессии.
Для q-го квантиля у нас есть следующая модель регрессии:

Это похоже на модель линейной регрессии, но здесь целевая функция, которую мы считаем минимизируемой, такова:

где q – q-й квантиль.

Если q = 0,5, то есть если нас интересует медиана, тогда она становится медианной регрессией (или регрессией наименьшего абсолютного отклонения), и подставляя значение q = 0,5 в приведенное выше уравнение, мы получаем целевую функцию как:

Интерпретация коэффициентов в квантильной регрессии:
Предположим, что уравнение регрессии для 25-го квантиля регрессии: y = 5,2333 + 700,823 x
Это означает, что на одну единицу увеличения x оценивается увеличение 25-го квантиля y на 700,823 ед.

Преимущества квантили перед линейной регрессией

  • Весьма полезно, когда в данных присутствует гетероскедастичность.
  • Устойчив к выбросам
  • Распределение зависимой переменной может быть описано с помощью различных квантилей.
  • Это более полезно, чем линейная регрессия, когда данные искажены.

Отказ от ответственности при использовании квантильной регрессии!
Следует иметь в виду, что коэффициенты, которые мы получаем в квантильной регрессии для определенного квантиля, должны значительно отличаться от тех, которые мы получаем при линейной регрессии. Если это не так, то наше использование квантильной регрессии неоправданно. Это можно сделать, наблюдая за доверительными интервалами коэффициентов регрессии оценок, полученных из обеих регрессий.

Ридж-регрессия

Прежде чем переходить к гребневой регрессии, важно понять концепцию регуляризации.

1. Регуляризация

Регуляризация помогает решить проблему перенастройки, которая подразумевает, что модель хорошо работает на данных обучения, но плохо работает на данных проверки (тестирования). Регуляризация решает эту проблему, добавляя штрафной член к целевой функции и управляя сложностью модели с помощью этого штрафного члена.

Регуляризация обычно полезна в следующих ситуациях:

  1. Большое количество переменных
  2. Низкое отношение количества наблюдений к количеству переменных
  3. Высокая мультиколлинеарность

2. Функция потерь L1 или регуляризация L1

При регуляризации L1 мы пытаемся минимизировать целевую функцию, добавляя штрафной член к сумме абсолютных значений коэффициентов. Этот метод также известен как метод наименьших абсолютных отклонений. Лассо-регрессия использует регуляризацию L1.

3. Функция потерь L2 или регуляризация L2

При регуляризации L2 мы пытаемся минимизировать целевую функцию, добавляя штрафной член к сумме квадратов коэффициентов. Регрессия хребта или регрессия усадки использует регуляризацию L2.

В целом регуляризация L2 работает лучше, чем регуляризация L1. L2 эффективен с точки зрения вычислений. Есть одна область, где L1 считается предпочтительным вариантом по сравнению с L2. L1 имеет встроенный выбор функций для разреженных пространств функций. Например, вы прогнозируете, есть ли у человека опухоль головного мозга, используя более 20 000 генетических маркеров (признаков). Известно, что подавляющее большинство генов практически не влияют на наличие или тяжесть большинства заболеваний.

В целевой функции линейной регрессии мы пытаемся минимизировать сумму квадратов ошибок. В гребневой регрессии (также известной как регрессия усадки) мы добавляем ограничение на сумму квадратов коэффициентов регрессии. Таким образом, в гребневой регрессии наша целевая функция:

Здесь λ — параметр регуляризации, который не является отрицательным числом. Здесь мы не предполагаем нормальность условий ошибки.
Очень важное примечание:

Мы не упорядочиваем срок перехвата. Ограничение заключается только в сумме квадратов коэффициентов регрессии X.

Мы видим, что гребенчатая регрессия использует регуляризацию L2.

Решив вышеуказанную целевую функцию, мы можем получить оценки β как:

Как мы можем выбрать параметр регуляризации λ?
Если мы выберем лямбда = 0, мы вернемся к обычным оценкам МНК. Если лямбда выбрана очень большой, это приведет к недообучению. Таким образом, очень важно определить желаемое значение лямбда. Чтобы решить эту проблему, мы наносим оценки параметров в зависимости от различных значений лямбда и выбираем минимальное значение λ, после которого параметры имеют тенденцию стабилизироваться.

Лассо-регрессия

Лассо расшифровывается как Оператор наименьшего абсолютного сокращения и выбора. Он использует метод регуляризации L1 в целевой функции. Таким образом, целевая функция в регрессии LASSO становится:

λ — параметр регуляризации, а член пересечения не регуляризован. Мы не предполагаем, что ошибки нормально распределены.
Для оценок у нас нет конкретной математической формулы, но мы можем получить оценки с помощью некоторого статистического программного обеспечения.
Обратите внимание, что лассо-регрессия также нуждается в стандартизации.

Преимущество лассо перед гребневой регрессией

Лассо-регрессия может выполнять встроенный выбор переменных, а также сокращение параметров. При использовании гребневой регрессии можно получить все переменные, но с сжатыми параметрами.

7. Эластичная чистая регрессия

Регрессия эластичной сети предпочтительнее регрессии гребня и регрессии лассо, когда вы имеете дело с сильно коррелированными независимыми переменными.
Это combination of both L1 and L2 regularization.

Целевая функция в случае эластичной чистой регрессии:

Подобно регрессии гребня и лассо, он не предполагает нормальности.

8. Регрессия основных компонентов (PCR)

ПЦР — это метод регрессии, который широко используется, когда у вас много независимых переменных ИЛИ в ваших данных существует мультиколлинеарность. Он делится на 2 этапа:

  1. Получение основных компонентов
  2. Выполнение регрессионного анализа основных компонентов

Наиболее распространенными особенностями ПЦР являются:

  1. Уменьшение размерности
  2. Удаление мультиколлинеарности

Получение основных компонентов
Анализ основных компонентов — это статистический метод для извлечения новых функций, когда исходные функции сильно коррелируют. Мы создаем новые функции с помощью исходных функций, так что новые функции не коррелированы.

Рассмотрим первую основную составляющую:

Первая ПК имеет максимальную дисперсию.
Аналогичным образом мы можем найти вторую ПК U2, которая не коррелирует с U1 и имеет вторую по величине дисперсию.
Аналогичным образом. для функций «p» у нас может быть максимум «p» ПК, так что все ПК не коррелированы друг с другом, а первый ПК имеет максимальную дисперсию, затем 2-й ПК имеет максимальную дисперсию и так далее.

Недостатки:

Следует отметить, что ПЦР — это не метод выбора признаков, а метод извлечения признаков. Каждый принципиальный компонент, который мы получаем, является функцией всех признаков. Следовательно, используя главные компоненты, невозможно объяснить, какой фактор в какой степени влияет на зависимую переменную.

9. Частичная регрессия методом наименьших квадратов (PLS)

Это альтернативный метод регрессии основных компонентов, когда у вас есть независимые переменные с высокой корреляцией. Это также полезно, когда имеется большое количество независимых переменных.

Разница между PLS и PCR

Оба метода создают новые независимые переменные, называемые компонентами, которые представляют собой линейные комбинации исходных переменных-предикторов, но ПЦР создает компоненты для объяснения наблюдаемой изменчивости переменных-предикторов, вообще не учитывая переменную отклика. В то время как PLS учитывает зависимую переменную и, следовательно, часто приводит к моделям, которые могут соответствовать зависимой переменной с меньшим количеством компонентов.

10. Опорная векторная регрессия

Регрессия опорных векторов может решать как линейные, так и нелинейные модели. SVM использует нелинейные функции ядра (например, полиномиальные), чтобы найти оптимальное решение для нелинейных моделей.

Основная идея SVR состоит в том, чтобы свести к минимуму ошибку, индивидуализировав гиперплоскость, которая максимизирует запас.

11. Порядковая регрессия

Порядковая регрессия используется для прогнозирования ранжированных значений. Проще говоря, этот тип регрессии подходит, когда зависимая переменная порядковая по своей природе. Пример порядковых переменных — ответы на опрос (по шкале от 1 до 6), реакция пациента на дозу препарата (отсутствует, легкая, тяжелая).

Почему мы не можем использовать линейную регрессию при работе с порядковой целевой переменной?

В линейной регрессии зависимая переменная предполагает, что изменения уровня зависимой переменной эквивалентны во всем диапазоне переменной. Например, разница в весе между человеком весом 100 кг и человеком весом 120 кг составляет 20 кг, что имеет то же значение, что и разница в весе между человеком весом 150 кг и человеком весом 170 кг. Эти отношения не обязательно выполняются для порядковых переменных.

12. Регрессия Пуассона

Регрессия Пуассона используется, когда зависимая переменная имеет данные счета.

Применение регрессии Пуассона —

  1. Прогнозирование количества обращений в службу поддержки по конкретному продукту
  2. Оценка количества вызовов службы экстренной помощи во время события

Зависимая переменная должна удовлетворять следующим условиям

  1. Зависимая переменная имеет распределение Пуассона.
  2. Количество не может быть отрицательным.
  3. Этот метод не подходит для нецелых чисел.

В приведенном ниже коде мы используем набор данных с именем warpbreaks, который показывает количество разрывов пряжи во время плетения. В этом случае модель включает термины для типа шерсти, натяжения шерсти и взаимодействия между ними.

13. Отрицательная биномиальная регрессия

Как и регрессия Пуассона, он также имеет дело с данными подсчета. Возникает вопрос, «чем она отличается от регрессии Пуассона». Ответ: отрицательная биномиальная регрессия не предполагает, что распределение числа имеет дисперсию, равную его среднему значению. В то время как регрессия Пуассона предполагает дисперсию, равную ее среднему значению.

14. Квазипуассоновская регрессия

Это альтернатива отрицательной биномиальной регрессии. Его также можно использовать для чрезмерно рассредоточенных данных подсчета. Оба алгоритма дают схожие результаты, есть различия в оценке эффектов ковариат. Дисперсия квазипуассоновской модели является линейной функцией среднего, в то время как дисперсия отрицательной биномиальной модели является квадратичной функцией среднего.

15. Регрессия Кокса

Регрессия Кокса подходит для данных о времени до события. Смотрите примеры ниже -

  1. Время от открытия клиентом счета до истощения.
  2. Время после лечения рака до смерти.
  3. Время от первого инфаркта до второго.

Логистическая регрессия использует двоичную зависимую переменную, но игнорирует время событий.

Помимо оценки времени, необходимого для достижения определенного события, анализ выживаемости также можно использовать для сравнения времени до события для нескольких групп.
Двойные цели установлены для модели выживания 1. Непрерывная переменная, представляющая время до события. 2. Двоичная переменная, представляющая состояние независимо от того, произошло событие или нет.

16. Тобит-регрессия

Он используется для оценки линейных отношений между переменными, когда в зависимой переменной существует цензура. Цензурирование означает, что мы наблюдаем независимую переменную для всех наблюдений, но знаем истинное значение зависимой переменной только для ограниченного диапазона наблюдений. Значения зависимых в определенном диапазоне сообщаются как одно значение. Подробное объяснение цензуры приведено ниже -

  1. Правильная цензура возникает, когда интересующее событие не происходит до окончания исследования. Исследование не может ждать события от субъекта до окончания рассматриваемого периода исследования. Предположим, вы строите модель оттока клиентов, в которой зависимая переменная является бинарной (устранены или все еще в компании). Для тех клиентов, которые все еще в компании (не уволены) даже после окончания обучения (2 года), цензурируется право.
  2. Левая цензура — это когда интересующее событие уже произошло до зачисления. Такое встречается очень редко

Ограничение модели Тобит

  1. Модель Тобита делает те же предположения о распределении ошибок, что и модель МНК, но она гораздо более уязвима к нарушениям этих предположений.
  2. В модели OLS с гетероскедастическими ошибками расчетные стандартные ошибки могут быть слишком малы.

Как выбрать правильную модель регрессии?

  1. Если зависимая переменная является непрерывной, а модель страдает от коллинеарности или имеется много независимых переменных, вы можете попробовать регрессии PCR, PLS, гребня, лассо и эластичной сети. Вы можете выбрать окончательную модель на основе скорректированного r-квадрата, RMSE, AIC и BIC.
  2. Если вы работаете с данными подсчета, вам следует попробовать пуассоновскую, квазипуассоновскую и отрицательную биномиальную регрессию.
  3. Чтобы избежать переобучения, мы можем использовать метод перекрестной проверки для оценки моделей, используемых для прогнозирования. Мы также можем использовать методы регрессии гребня, лассо и эластичной сети, чтобы исправить проблему переобучения.
  4. Попробуйте регрессию опорного вектора, если у вас есть нелинейная модель.

Примечание: - Это просто учебник из хорошего источника….