Логистическая регрессия — это алгоритм классификации машинного обучения, который используется для прогнозирования вероятности категориальной зависимой переменной. Это расширение модели линейной регрессии для задач классификации. В отличие от линейной регрессии, которая выводит непрерывные числовые значения, логистическая регрессия преобразует свои выходные данные с помощью функции логистической сигмоиды, чтобы вернуть значение вероятности, которое затем может быть сопоставлено с двумя или более дискретные классы.

В этом разделе мы пытаемся узнать больше о:

  1. Коэффициенты логистической регрессии
  2. Максимальная вероятность логистической регрессии

Сравнение между логистической регрессией и линейной регрессией

Приведены данные о времени, затраченном на учебу, и экзаменационных баллах. Линейная регрессия и логистическая регрессия могут предсказывать разные вещи:

  • Линейная регрессия может помочь нам предсказать результат теста учащегося по шкале от 0 до 100. Прогнозы линейной регрессии являются непрерывными (числа в диапазоне). В линейной регрессии мы подгоняем линию по методу наименьших квадратов. Находим линию, минимизирующую сумму квадратов остатков.
  • Логистическая регрессия может помочь нам предсказать, сдал или не сдал учащийся. Прогнозы логистической регрессии дискретны. Мы также можем просмотреть оценки вероятности, лежащие в основе классификаций модели.

  • Логистическая регрессия предсказывает, является ли что-то истиннымили ложным,вместо того, чтобы предсказывать что-то непрерывное, как размер.
  • Кроме того, вместо того, чтобы подгонять линию к данным, логистическая регрессия соответствует S-образной «логистической функции». Кривая идет от 0 до 1, и это означает, что кривая сообщает нам вероятность того, что объект на рисунке выше страдает ожирением или нет, исходя из его веса.
  • Хотя логистическая регрессия говорит о вероятности того, что объект страдает ожирением, она обычно используется для классификации. Например, если вероятность объекта составляет › 50%, то мы будем классифицировать его как страдающего ожирением, в противном случае мы будем классифицировать его как «не страдающего ожирением».

Этап логистической регрессии

1. Логистическая регрессия: коэффициенты (непрерывная переменная)

В части 1 мы начнем с обсуждения логистической регрессии, когда мы используем непрерывную переменную (например, вес) для прогнозирования ожирения. Ось Y в логистической регрессии ограничивается значениями вероятности от 0 до 1. Ось Y в логистической регрессии преобразуется из «вероятности ожирения» в «логарифм (вероятность ожирения)», поэтому, как и y -ось в линейной регрессии может изменяться от -бесконечности до +бесконечности.

Давайте преобразуем эту ось Y из шкалы «вероятности ожирения» в шкалу «логарифм (вероятность ожирения)», как показано ниже:

p в данном случае — это вероятность того, что объект страдает ожирением, и соответствует значению на старой оси Y от 0 до 1.

Если мы подставим p=0,88в логит-функцию и посчитаем, мы получим 2 на новой оси Y.

Новая ось Y преобразует волнистую линию в прямую.

Важно знать, что хотя график с волнистой линией — это то, что мы связываем с логистической регрессией, коэффициенты представлены в терминах логарифма( шансы) график.

Первый коэффициент Estimated Intercept = -3,48 представляет собой точку пересечения по оси Y, когда вес = 0. Это означает, что при весе = 0 логарифм (вероятность ожирения) равен -3,48. Стандартная ошибка = 2,364 для предполагаемого пересечения.

Значение Z = -1,471 – это расчетное значение точки пересечения, деленное на стандартную ошибку. Другими словами, это количество стандартных отклонений, на которое предполагаемая точка пересечения отходит от 0 на стандартной нормальной кривой. Поскольку оценка меньше двух стандартных отклонений от нуля. Мы знаем, что это не является статистически значимым.

Второй коэффициент равен Slope = 1,83. Это означает, что на каждую единицу набранного веса логарифм (вероятность ожирения) увеличивается на 1,825 ~ 1,83. Стандартная ошибка наклона = 1,088.

Значение Z = 1,678 — это число стандартных отклонений, полученных оценкой от 0 на стандартной нормальной кривой. Из этого результата мы знаем, меньше ли оценка 2 стандартных отклонений от 0, поэтому статистически не значимо. (Это неудивительно при таком небольшом размере выборки).

И это подтверждается большим значением p.

2. Логистическая регрессия: коэффициенты (дискретная переменная)

Теперь давайте поговорим о коэффициентах логистической регрессии в контексте проверки того, связана ли дискретная переменная, например, «имеет ли объект мутировавший ген», с ожирением.

Этот тип логистической регрессии очень похож на то, как выполняется критерий Стьюдента с использованием линейных моделей.

Первое, что мы делаем, это трансформируем ось Y от вероятности ожирения до логарифма (вероятности ожирения). Теперь подгоняем две строки к данным. Для первой строки мы берем данные "Нормальный ген" и используем их для расчета логарифма (вероятности ожирения) для объекта с нормальным геном.

Таким образом, первая (оранжевая) линия представляет собой логарифм (вероятность ожирения) для мышей с нормальным геном. Назовем это логарифмом (нормальный ген шансов).

Затем мы рассчитываем логарифм (вероятность ожирения) для мышей с мутировавшим геном. Таким образом, вторая (зеленая) линия представляет собой логарифм (вероятность ожирения) для объекта с мутантным геном. Назовем это log(мутация гена шансов).

Эти две линии объединяются, чтобы сформировать коэффициенты в этом уравнении:

А поскольку вычитание одного журнала из другого может быть преобразовано в деление, этот термин равен log(отношение шансов).

Он говорит нам в логарифмической шкале, насколько наличие мутировавшего гена увеличивает (или уменьшает) вероятность ожирения объекта. Подставим числа:

и это дает нам эти коэффициенты:

Первый коэффициент, расчетное пересечение = -1,50, представляет собой логарифм (шансы нормального гена) и генный мутантный термин = 2,35. > — это логарифм (отношение шансов), который говорит вам в логарифмической шкале, насколько наличие мутировавшего гена увеличивает или уменьшает вероятность ожирения.

Стандартные ошибки = 0,7817 для оценочного пересечения и стандартные ошибки = 1,0427 для мутантного гена.

Значение Z = -1,924 (для оценочного пересечения) говорит нам, что оценочное значение для отрезка -1,5 меньше 2 стандартных отклонений от 0 и, следовательно, значительно не отличается от 0, и это подтверждается значением pбольше 0,05.

Значение Z = 2,255 (для мутантного гена), логарифм (отношение шансов), описывающий, как наличие мутировавшего гена увеличивает вероятность ожирения, превышает 2, что позволяет предположить, что оно статистически значимо. и это подтверждается значением pменее0,05.

3. Логистическая регрессия: подбор линии с максимальным правдоподобием

Наша цель — нарисовать «наиболее подходящую» закорючку для этих данных. Как мы знаем, в логистической регрессии мы преобразуем ось Y от вероятности ожирения к логарифму (шансы ожирения), см. пункты 1 и 2 выше.

Единственная проблема заключается в том, что преобразование толкает необработанные данные к положительной и отрицательной бесконечности, а это означает, что остатки (расстояние от точек данных до линии) также равны положительной и отрицательной бесконечности, и это означает , что мы можем' не используйте метод наименьших квадратов, чтобы найти наилучшую линию.

Вместо этого мы используем Максимальное правдоподобие.

Первое, что мы делаем, это проецируем исходные точки данных на линию-кандидата. Затем мы преобразуем журнал кандидатов (шансы) в вероятности кандидатов, используя эту причудливую формулу.

Для тех, кто ведет счет дома, вот как преобразовать уравнение, которое принимает вероятность в качестве входных данных и выводит логарифм (шансы), в уравнение, которое принимает логарифм (шансы) в качестве входных данных и выводит вероятность.

Теперь давайте посмотрим на это причудливое уравнение в действии. Например, мы используем точку = -2,1 (с правой стороны). Мы подставляем -2,1 для журнала (шансы).

и это дает нам координату Y на волнистой линии.

и делаем то же самое для всех точек.

Теперь мы используем наблюдаемый статус (ожирение или отсутствие ожирения) для расчета их вероятности с учетом формы волнистой линии.

Хотя можно рассчитать вероятность как произведение отдельных вероятностей, статистики предпочитают вместо этого вычислять логарифм вероятности (поскольку волнистая линия, которая максимизирует вероятность, та же самая волнистая линия, которая максимизирует логарифм вероятности). вероятность).

а это означает, что логарифмическая вероятность исходной строки составляет -3,77. Теперь мы поворачиваем линию и вычисляем ее логарифмическую вероятность, проецируя на нее данные, преобразуя логарифм (шансы) в вероятности.

повернуть строку:

рассчитать его логарифмическую вероятность, спроецировав на него данные и преобразовав логарифм (шансы) в вероятности:

а затем вычислить логарифмическую вероятность

И мы просто продолжаем вращать линию логарифма (шансов), проецировать на нее данные, преобразовывать их в вероятности и вычислять логарифмическую правдоподобие

ПРИМЕЧАНИЕ. Алгоритм, который находит линию с максимальной вероятностью, довольно умен каждый раз, когда он поворачивает линию, он делает это таким образом, что увеличивает логарифмическую вероятность. Таким образом, алгоритм может найти оптимальную подгонку после нескольких оборотов.

В конечном итоге мы получаем линию, которая максимизирует вероятность, и именно она выбрана для наилучшего соответствия.

Использованная литература:







Если вы хотите узнать больше о R2 и p-значениях для логистической регрессии, вы можете посмотреть это видео!