Параметрическая и непараметрическая выбор модели для регрессии и классификации на основе статистических…

ПАРАМЕТРИЧЕСКАЯ МОДЕЛЬ

В параметрической модели количество параметров фиксировано по отношению к размеру выборки. Он должен удовлетворять всем предположениям.

Модель обучения, которая запоминает данные с помощью заданных параметров (то есть независимых функций), называется линейной / параметрической моделью.

Преимущества параметрических алгоритмов машинного обучения:

Разъяснимость хорошая (легко интерпретируется клиентом или заинтересованными сторонами).
Подходит для простых данных.
Параметрические модели очень быстро учатся на данных.

Линия линейной регрессии имеет уравнение вида Y = a + bX, где X - независимая переменная. и Y - зависимая переменная. Наклон линии равен b, а a - точка пересечения (значение y, когда x = 0). Предположим, что при линейной регрессии у вас есть 10 независимых переменных, тогда количество параметров равно 11 (10 спусков и один перехват).

НЕПАРАМЕТРИЧЕСКАЯ МОДЕЛЬ

Алгоритмы, которые не делают строгих предположений о форме функции отображения, называются непараметрическими алгоритмами машинного обучения. Не делая предположений, они могут изучать любую функциональную форму на основе данных обучения.

В непараметрической модели (эффективное) количество параметров может расти с размером выборки.

Преимущества непараметрических алгоритмов машинного обучения:

Подходит для сложных данных.
Никаких предположений (или слабых предположений) о базовой функции.
Может привести к моделям с более высокой производительностью для прогнозирования.

Общие условия проверки гипотезы:

Линейно отделимые для регрессии можно найти, выполнив статистический тест.

ОСНОВНЫЕ УСЛОВИЯ ДЛЯ ВСЕХ СТАТИСТИЧЕСКИХ ТЕСТОВ:

Проверка гипотез:

H0 (нулевая гипотеза): Среднее1 = Среднее2 = Среднее3 (Нет связи)

Ха (альтернативная гипотеза): Среднее1! = Среднее2! = Среднее3 (Отношение)

TSTAT: Test-Statistic показывает, насколько сильно различается среднее значение между группами (стандартное отклонение). Он говорит о расстоянии между средствами, независимо от того, перекрываются они или нет. T-статистика считается значимой, если она больше 1,96 для уровня достоверности 95%.

PVALUE: значение P указывает, на сколько области они перекрывают друг друга. Если p-значение меньше или равно 0,05, тогда остается в силе альтернативная гипотеза (значимая с целью, она имеет отношение), если p-значение больше 0,05, то нулевая гипотеза не имеет отношения к цели.

РЕГРЕССИЯ:

На основе данных, с которыми вы работаете, вы должны выбрать модель, можем ли мы использовать параметрические модели или непараметрические модели.

Для непрерывной целевой переменной (регрессия) проверьте, выполняются ли условия перед построением модели.

Зависимая переменная должна быть числовой
Независимые переменные не показывают мультиколлинеарность
Линейная связь между зависимыми и независимыми переменными
Отсутствие автокорреляции
Термины ошибки должны быть гомоскедастичными
Условия ошибки должны соответствовать нормальному распределению.

Сводка OLS, если какое-либо из условий не выполнено (например, предположим, что возраст имеет мультиколлинеарность с целевым значением pvalue> 0,05, мы можем отбросить переменную и получить данные, которые удовлетворяют условиям для построения линейной регрессии) или если вам неудобно отказаться от возраста, лучше выбрать непараметрическую модель, то есть регрессор дерева решений, регрессор KNN, потому что он может учиться.

Предположим, если вы сохраните столбец возраста, который имеет мультиколлинеарность, и построите модель линейной регрессии, это приведет к переобучению.

Считайте ИМТ целевым и диабетическим случаем Менее, средним, тяжелым, чтобы понять линейную и нелинейную зависимость.

Параметрическая модель обеспечивает лучшую объяснимость данных, непараметрические модели обеспечивают лучшую точность.

КЛАССИФИКАЦИЯ

Для целевой переменной Категория (классификация) проверьте статистический тест для параметрических моделей, таких как логистическая регрессия и наивный байесовский анализ.

Если t-static ›1,96 и p-value‹ 0,05 удовлетворяют условию, т. Е. Средства разделены, поэтому мы можем построить параметрическую модель, линейно разделимую.

Рассмотрите случай диабета высокой, средней, тяжелой степени в качестве целевого значения и ИМТ как независимую переменную, чтобы понять линейную и нелинейную зависимость.

Если средние так близки, они не линейно разделяются, перекрываются. Постройте непараметрические модели для классификации, потому что у них есть возможность изучить перекрытие.

Наконец, в руках заинтересованных сторон, если они хотят иметь лучшую объяснимость на основе данных, пойти на удовлетворение всех предположений и построить линейную модель, если они сосредоточатся на точности построенной нелинейной модели. Для нелинейной модели нет проверки предположений, мы можем построить модель напрямую.