Этот блог призван объяснить концепцию мультиколлинеарности, которая очень важна для предварительной обработки данных, которая, в свою очередь, является частью науки о данных или машинного обучения / глубокого обучения.

В современном мире была создана огромная шумиха вокруг науки о данных, но печальная реальность заключается в том, что из-за этой шумихи большинство людей не изучают фактические концепции, которые требуются, если кто-то даже изучает, то это также не обучение в правильным образом они не изучают фактический вариант использования для этого.

Проблема бегства за модным словечком, не зная его реальных концепций, очень затрудняет его понимание. Вдобавок этот тип обучения оставляет очень плохое влияние / впечатление на общество / других заинтересованных студентов. Поскольку заинтересованные люди наблюдают за моделью обучения студентов, которые изучают ее неправильным способом / подходом, они также склонны делать то же самое. Как следствие этого, большинство людей просто притворяются, что знают реальную концепцию, но на самом деле они лишь мельком видят ее.

Чтобы преуспеть в любой из технологий, необходимо иметь глубокие знания. Теперь, как уже было сказано, давайте начнем тему «Мультиколлинеарность».

Что такое мультиколлинеарность?

Его значение заключается в самом слове, коллинеарность означает (в контексте набора данных), что некоторые функции каким-то образом связаны друг с другом, а & мульти означает более одного.

Когда оба вышеуказанных слова в единственном числе объединяются и становятся «мультиколлинеарностью», это означает, что несколько функций коррелированы друг с другом.

Если какие-то особенности так или иначе сильно коррелируют, тогда будет мультиколлинеарность.

Как возникла мультиколлинеарность?

Когда в наборе данных присутствуют некоторые функции, которые могут полностью определять значение какой-либо другой функции, тогда обязательно будет мультиколлинеарность. Примеры функций, которые могут создать проблему мультиколлинеарности, следующие:

Пример 1

Рассмотрим набор данных, который содержит 3 столбца: одно случайное число от 1 до 50, другой столбец, также содержащий случайное число от 1 до 50, и, наконец, третий столбец, содержащий значение, полученное после вычитания суммы обоих значений столбца из 100.

Легко понять, что если мы потратили на 2 разные вещи и их всего 100, то значение третьего столбца можно легко вычислить. Это создает сильную корреляцию между этими столбцами.

Примечание. Если вы не знаете о корреляциях, прочтите указанные ниже блоги о корреляциях.





Когда вы рассчитываете корреляцию между этими характеристиками, вы получите это как:

На изображении выше вы можете видеть (стоимость 1 и стоимость 3), тогда как (стоимость 2 и стоимость 3) очень сильно коррелированы.



Пример 2

Рассмотрим особенность Пол, это категориальная переменная (номинальная категориальная переменная), поэтому ее нужно закодировать одним нажатием, чтобы она подходила для модели. После кодирования он будет преобразован в 2 столбца, содержащие 0 или 1.

Поскольку значение любого одного столбца может быть легко получено из значения другого (потому что, если значение одного столбца равно 0, тогда подразумевается, что исходное значение / значение другого столбца равно 1 и наоборот), то его легко можно понял, что тут проблема мультиколлинеарности.

Ознакомьтесь с изображениями для набора данных и изображениями ниже для ясного понимания:

На изображении выше хорошо видно, что в элементах присутствует 100% мультиколлинеарность!

Важная заметка!

Если учитываются только 1 зависимая и только 1 независимая переменная, то мультиколлинеарность не может возникнуть.

Недостатки мультиколлинеарности!

Всякий раз, когда в наборе данных присутствует мультиколлинеарность, и если этот набор данных используется непосредственно для обучения модели, гарантируется, что обученная модель не будет лучшей, в большинстве ситуаций модель будет обучаться с использованием абсолютно неправильных весов.

Мультиколлинеарность приводит к проблеме ловушки фиктивной переменной, чтобы понять, что такое ловушка фиктивной переменной, просмотрите блог на том же самом, щелкнув ссылку ниже.



Кодовая ссылка для мультиколлинеарности!



Я надеюсь, что моя статья объясняет все, что связано с темой, со всеми глубокими концепциями и объяснениями. Большое вам спасибо за то, что вы потратили свое время на чтение моего блога и повышение ваших знаний. Если вам нравятся мои работы, то прошу вас аплодировать этому блогу и подписываться на меня на Medium и GitHub!

Получите доступ к экспертному обзору - Подпишитесь на DDI Intel