Всем привет, сегодня я расскажу о корреляции между столбцами фрейма данных. Перед тем, как глубоко погрузиться в эту тему, это моя первая статья на тему науки о данных, поэтому, если вы видите кусок неверной информации, не стесняйтесь, пишите комментарий. Примеры в этой статье написаны на python.

Корреляция

Проще говоря, корреляция исследует линейную связь переменных. Представьте, что у вас есть две переменные: мощность автомобиля и расход автомобиля. Обычно, когда мощность увеличивается, потребление действует так же, как мощность. Или потребление может быть получено из лошадиных сил. Эти события показывают взаимосвязь между двумя переменными. Сила корреляции выражается коэффициентом корреляции, диапазон которого находится в диапазоне от -1 до +1. На изображении 1 показан пример коэффициента корреляции комментария. Очевидно, что это не правило, которому вы должны подчиняться. Вы можете сделать собственное объяснение для коэффициентов корреляции.

Сделаем упражнение. Во-первых, мы начинаем с корреляционной матрицы, а затем создаем более стильную матрицу. Матрица корреляции создается функцией «corr()», которая является расширением DataFrame. Первый столбец и первая строка матрицы включают столбцы фрейма данных. Значение пересечения столбца и строки представляет собой значение r (коэффициент корреляции).

У Seaborn есть функция тепловой карты для построения теплового графика, и мы будем использовать эту функцию для визуализации корреляционной матрицы. Маска уменьшает повторение значений r. Функция тепловой карты принимает эту маску и матрицу корреляции в качестве аргументов, затем цветовая схема задается параметром cmap, а аргумент fmt определяет представление с плавающей запятой. Наконец, параметр annot решает, показывать значения r или нет.

Коэффициент корреляции

Существует два типа коэффициентов корреляции: Пирсона и Спирмена. Коэффициент корреляции Пирсона принят по умолчанию, поэтому я упомяну его первым.

Пирсон проверяет линейную связь между переменными, и у него есть требование. Распределение столбцов должно быть нормальным. Итак, как следует контролировать распространение? В этом нам помогают гистограммы, и у Seaborn отличная функция. В приведенном ниже коде показано распределение всех столбцов.

Когда распределения сделаны, вы готовы использовать коэффициент Пирсона.

Второй коэффициент корреляции - Спирмена. Спирмен проверяет монотонную связь между ранжированными переменными, и у него нет таких требований, как у Пирсона, поэтому вы можете чувствовать себя комфортно. Коэффициент нуждается в непрерывных или порядковых переменных. Итак, что такое монотонная связь имеет два правила. Когда коэффициент близок к единице, правило состоит в том, что при увеличении одной переменной другая переменная не уменьшается. Если коэффициент близок к нулю, правило состоит в том, что при увеличении одной переменной другая переменная не увеличивается. Это может быть сложно понять, поэтому я опустил изображение ниже как сравнение монотонных и линейных отношений.

P-критерий корреляции

Я объясню p-значение на примере. Представьте, что у вас есть собственная компания, и ваш анализ показал, что ваши сотрудники-женщины получают такую ​​же зарплату, как и сотрудники-мужчины. Затем случайным образом выбираются две группы из сотрудников-мужчин и сотрудников-женщин. Теперь мы хотим проверить, получают ли две группы одинаковую зарплату. Наша гипотеза H0 заключается в том, что они зарабатывают одинаково, а гипотеза H1 заключается в том, что разница между группами составляет 50 долларов. Наконец, рассчитывается p-значение, и вы получаете p-значение 0,01. Это означает, что разница между группами составляет 50$ с вероятностью %1. Обычно говорят, что когда значение p ниже 0,05, H0 отклоняется.

Таким образом, когда мы получаем значение корреляции, функция также возвращает значение p. Следовательно, вы также можете проверить корреляцию с p-значением. В приведенном ниже примере кода показан пример использования p-значения в корреляции.

Это была моя первая статья в области науки о данных, надеюсь, она вам понравилась.