Прежде чем мы обсудим логистическую регрессию, я, конечно, надеюсь, что вы знаете, что такое линейная регрессия, и вот краткое описание линейной регрессии.

Что такое линейная регрессия?

Линейная регрессия — это контролируемый алгоритм машинного обучения, который используется для прогнозирования целевого значения на основе независимых переменных. Когда я говорю «под наблюдением», это означает, что для прогнозирования нужны помеченные наборы данных. Целевое значение, предсказанное с помощью линейной регрессии, является непрерывным значением. Как это работает, модель линейной регрессии находит лучшую линию, которая может точно предсказать результат для непрерывной зависимой переменной. Посмотрите изображения ниже, чтобы получить четкое представление.

Здесь мы хотим предсказать размер объекта, используя независимую переменную веса. Точки на графике являются известными точками данных/набором данных. Теперь в линейной регрессии мы пытаемся провести прямую линию между точками данных, чтобы точно предсказать результат. Смотрите изображение для ясности.

И на основе этой строки мы прогнозируем целевое значение для любой заданной неизвестной независимой переменной.

Логистическая регрессия

Теперь логистическая регрессия также является контролируемым алгоритмом машинного обучения и похожа на линейную регрессию, но с той разницей, что вместо прогнозирования непрерывных значений она в основном используется для задач классификации. Здесь я сказал, что он используется для задач классификации, но помните, что это регрессионная модель. Это работает так: вместо того, чтобы подгонять прямую линию к данным, как линейная регрессия, логистическая регрессия подгоняет к данным S-образную логистическую функцию».

На данном изображении функция y = f(x) является сигмоидальной функцией, обычно представляемой как

Если вы внимательно посмотрите на функцию, вы поймете, что значение данной функции может варьироваться только от 0 до 1, что является здесь главной загвоздкой. Это чем-то похоже на вероятность. Итак, логистическая регрессия — это алгоритм классификации обучения с учителем, используемый для прогнозирования вероятности целевой переменной. Математически модель логистической регрессии предсказывает P (Y = 1) как функцию X. Это один из самых простых алгоритмов ML, который можно использовать для различных задач классификации, таких как обнаружение спама, прогнозирование диабета, обнаружение рака и т. д. Давайте посмотрим пример для лучшего понимания.

На приведенном выше графике у нас есть данные для мышей с ожирением и без ожирения в зависимости от их веса. Теперь модель логистической регрессии соответствует сигмоидальной функции данных.

Это означает, что теперь кривая говорит нам о вероятности того, страдает ли мышь ожирением или нет.

К настоящему времени вы, должно быть, поняли, что модель логистической регрессии становится моделью классификации только после того, как мы придаем ей пороговое значение. Например, если вероятность ожирения мыши больше 0,6, мы классифицируем ее как тучную.

Типы логистической регрессии

Как правило, логистическая регрессия означает бинарную логистическую регрессию с двоичными целевыми переменными, но могут быть еще две категории целевых переменных, которые могут быть предсказаны с ее помощью. Основываясь на этом количестве категорий, логистическую регрессию можно разделить на следующие типы:

Двоичный или биномиальный

В такой классификации зависимая переменная будет иметь только два возможных типа: 1 или 0. Например, эти переменные могут представлять успех или неудачу, да или нет, выигрыш или проигрыш и т. д.

Многочлен

В такой классификации зависимая переменная может иметь 3 и более возможных неупорядоченных типа или типы, не имеющие количественного значения. Например, эти переменные могут представлять «Тип A», «Тип B» или «Тип C».

Прежде чем погрузиться в реализацию логистической регрессии, мы должны знать о следующих предположениях об одном и том же:

· В случае бинарной логистической регрессии целевые переменные всегда должны быть бинарными, а желаемый результат представлен уровнем фактора 1.

· В модели не должно быть мультиколлинеарности, что означает, что независимые переменные должны быть независимы друг от друга.

· Мы должны включить в нашу модель значимые переменные.

· Мы должны выбрать большой размер выборки для логистической регрессии.

Пример кода

Давайте посмотрим, как мы можем выполнить логистическую регрессию с помощью Python и какие библиотеки нам нужно импортировать.

Scikit-learn или sklearn — это бесплатная библиотека машинного обучения для Python, в которой все модели машинного обучения реализованы в виде классов Python.

Обучение вашей модели:

››из sklearn.linear_model импортировать LogisticRegression

››классификатор = Логистическая регрессия (случайное_состояние = 0)

››classifier.fit(xtrain, ytrain)

Использование обученной модели для прогнозирования данных:

y_pred = classifier.predict(xtest)

Мы можем дополнительно проверить производительность обученной модели.

из sklearn.metrics импорта precision_score

печать («Точность: «, точность_оценка (ytest, y_pred))

Надеюсь, вам понравилось. Спасибо за чтение.