ОБРАЗОВАНИЕ

Понимание обобщенных линейных моделей и их взаимосвязи с линейной, логистической и пуассоновской регрессией

Никогда больше не путайте линейную регрессию с обобщенной линейной регрессией и не откажитесь от кристальной ясности.

Опрос 2021 Kaggle только что показал, что, как и в предыдущем году, наиболее часто используемыми алгоритмами в сообществе специалистов по науке о данных были линейная или логистическая регрессия. Я совсем не удивлен. В конце концов, взвешенное суммирование различных характеристик - это наиболее интуитивно понятная вещь. Однако для большинства новичков становится менее очевидным различие между линейной регрессией и другими видами регрессии.

После того, как вы закончите читать этот пост, у вас будет очень четкое представление о том, что отличает линейную регрессию от логистической и пуассоновской регрессии. Кроме того, вы также четко поймете причины, по которым мы все еще называем это логистической «регрессией», когда она используется для задач классификации.

Если вы когда-либо раньше запутались в этих различных типах регрессии, вы попали в нужное место. Тем не менее, я прошу вас отложить ваши предыдущие знания по этому вопросу на следующие несколько минут. Если вы это сделаете, я обещаю, что вы уйдете с кристальной ясностью. Давайте погрузимся.

Что такое обобщенная линейная модель?

Вкратце, Обобщенная линейная модель (GLM) - это математическая модель, которая связывает выход (функция переменной ответа, подробнее об этом позже) с одной или несколькими входными переменными (также называемыми исследовательскими переменными). Уравнение ниже показывает, как выходные данные связаны с линейным суммированием n переменных-предикторов. Имеются соответствующие члены коэффициента n + 1 (по одному для переменных-предикторов n и один дополнительный член для помощи в моделировании любого смещения)

Независимо от того, выполняете ли вы линейную, логистическую или пуассоновскую регрессию, правая часть приведенного выше уравнения (взвешенная комбинация входных функций) остается неизменной.

Давайте поговорим о левой части уравнения, о выходе. Это случайный компонент. Это функция ожидаемого значения переменной ответа. Для простоты назовем ожидаемое значение Y.

Функция g (.) называется функцией ссылки. Именно эта функция связи делает распределение Y совместимым с правой частью (линейная комбинация входных данных).

Когда функция g (.) является тождественной функцией, тогда уравнение GLM сводится к уравнению регулярной линейной регрессии.

Другими словами, регулярная линейная регрессия является частным случаем обобщенной линейной модели, когда функция связи является тождеством.

Ключевые различия между регулярной линейной регрессией и GLM

Как я упоминал ранее, регулярная линейная регрессия - это частный случай GLM. Однако, прежде чем продолжить, давайте сделаем небольшое отступление, чтобы объяснить некоторые ключевые различия между ними.

Ключевые предположения регулярной линейной регрессии заключаются в том, что каждое значение выходных данных Y независимо, что выходные данные распределены нормально, и что среднее значение Y связано с переменные-предикторы линейной комбинацией. В GLM выходные данные не ограничиваются нормальным распределением, а вместо этого могут принадлежать любому члену экспоненциального семейства.

Чтобы решить задачу регулярной линейной регрессии, вы можете использовать оценку методом наименьших квадратов или методом максимального правдоподобия. Оба они дадут одинаковые результаты. Однако GLM может быть решена только с помощью подхода оценки максимального правдоподобия.

Наконец, модель регулярной линейной регрессии также иногда называют стандартной моделью наименьших квадратов, изобретенной Гауссом в ~ 1809 году, в то время как GLM была изобретена Нелдером и Веддербурном в ~ 1972 году.

Как GLM соотносится с линейной, логистической и пуассоновской регрессией?

Теперь, когда вы начинаете рассматривать линейную регрессию как частный случай GLM, мы можем продолжить и идентифицировать другие случаи GLM.

Когда функция связи - логит (натуральный логарифм пропорции), мы получаем уравнение логистической регрессии.

Логистическая регрессия наиболее подходит, когда результат является бинарным (например, успех / неудача, заболевание / отсутствие заболевания). В таких приложениях соотношение (Y / (1- Y )) сродни отношению вероятности успеха к вероятности неудачи (также называемое ' шансы').

Когда функция связи представляет собой натуральный логарифм скорости, мы получаем уравнение регрессии Пуассона.

Регрессия Пуассона наиболее подходит, когда результатом является подсчет в заданном временном интервале или количество событий, которые происходят в заданное время.

Связь между функцией связи и функцией активации

Функция связи g (.) - это обратимая функция, которая преобразует ожидание вывода, чтобы сделать его совместимым с частью линейного предиктора ( правая часть уравнения в GLM). Однако в сообществе машинного обучения мы часто впервые знакомимся с обратной функцией ссылки. Это называется функцией активации.

Обратная функция связи аналогична функции активации. Термин «функция связи» широко используется в статистической литературе, тогда как термин «функция активации» более распространен в литературе по машинному обучению.

Например, если вы возьмете экспоненту обеих сторон уравнения GLM (показанного ранее) для логистической регрессии и примените простые алгебраические манипуляции, вы получите следующее уравнение для логистической регрессии (чаще встречается в литературе по машинному обучению).

Последние мысли

Люди часто путают и смешивают понятия. Что еще хуже, люди часто называют это аномалией логистической регрессией, когда ее используют для классификации. Отчасти это связано с тем, что мы, в сообществе машинного обучения, разделили контролируемое обучение на классификацию (когда результат дискретный) и регрессию (когда результат непрерывный).

Конечно, для классификации используется логистическая регрессия, но это все же метод регрессии. Это начинает иметь смысл только тогда, когда вы понимаете обобщенные линейные модели, более всеобъемлющую концепцию.

В конце концов, вы комбинируете различные входные переменные в виде взвешенной суммы с неизвестными коэффициентами, которые необходимо определить независимо от того, используете ли вы линейную, логистическую или пуассоновскую регрессию.