Корреляция Спирмена и тест значимости
Ссылка: данные о ЗАКУСКАХ
а) Найдите корреляционную матрицу Спирмена всех порядковых атрибутов.
б) Определить коэффициент детерминации.
c) Интерпретируйте результаты двух таблиц.
d) В каждом случае выполните тест значимости с доверительной вероятностью 95%.
Мы увидим понятия коэффициента корреляции Спирмена, коэффициента детерминации, критерия значимости.
Корреляция: используется для измерения некоторой формы связи между двумя переменными, т. е. насколько сильно связаны пары переменных.
- r = 0 означает отсутствие корреляции.
- r = +1 (полная положительная корреляция).
- r = -1 (совершенная отрицательная корреляция).
- Значение r ближе к +1 или -1 указывает на высокую степень корреляции между двумя переменными.
Коэффициент корреляции Чарльза Спирмена:
- Он используется для нахождения коэффициента корреляции между двумя порядковыми атрибутами.
- Это измерение корреляции также называется ранговой корреляцией.
- Этот метод применим для определения степени корреляции между двумя переменными в случае порядковых данных.
- Он оценивает, насколько хорошо связь между двумя переменными может быть описана с помощью монотонной функции.
Мы можем найти rs следующим образом:
Во-первых, мы вычислим ранг в соответствующих столбцах, взяв различия их рангов и просуммировав квадрат различий их рангов.
После этого мы можем использовать следующую формулу:
Где di = разница между рангами i^й пары двух переменных
n = количество пар наблюдений.
-1 <= rs <=1
Коэффициент детерминации:
- Он используется для измерения доли изменчивости подобранной модели.
- Это квадрат корреляции (r), поэтому он варьируется от 0 до 1.
- R2, равный 0, означает, что зависимая переменная не может быть предсказана по независимой переменной.
- R2, равный 1, означает, что зависимая переменная может быть предсказана без ошибок по независимой переменной.
Тест значимости:
Мы можем провести тест значимости в 5 шагов:
Шаг 1 – определение гипотезы.
Шаг 2- Поиск rs (используя их ранги).
Шаг 3 – нахождение значения rs из таблицы/графика Спирмена для заданной степени свободы и уровня значимости.
Шаг 4 – Проверка того, что вычисленное значение rs выше или ниже значения rs из таблицы/графика.
Шаг 5 – Отклонение (если рассчитанное значение rs выше) или неспособность отклонить гипотезу.
И последний комментарий.
Расчеты:
Чаще всего используется корреляция Пирсона, мы можем найти матрицу корреляции в питоне следующим образом:
data.corr() # данные - это DataFrame данных SNACKS
a) Коэффициенты корреляции Спирмена-
Давайте рассчитаем коэффициенты корреляции Спирмена (rs) для наших данных "ЗАКУСКИ".
Наш набор данных SNACKS хранится в "data" DataFrame.
Мы можем увидеть первые 5 строк, используя:
data.head()
Мы можем попробовать построить график зависимости функции от целевой переменной,
Например, диаграмма рассеяния оценок «Соленость против симпатии» — все графики очень сложны, и мы не можем сказать, может ли между ними быть какая-либо корреляция.
Теперь давайте посчитаем rs,
Используя scipy.stats.spearmanr Python, мы можем рассчитать корреляционную матрицу Спирмена.
Но поскольку нас интересует только rs пар между функциями и целевой переменной. Для упрощения и более подробного пояснения посчитаем отдельно по очереди.
i) Оценка солености-любви
Мы можем использовать столбцы «Соленость» и «Оценки симпатии», вычислив их ранги, а затем следуя процедуре, описанной в теоретической части:
Здесь печатаем первые 5 строк таблицы:
Итак, мы получили d^2 = 2756,25 + 4,00 + 361,00 + 4,00 + 2450,25 = 113467,0.
n = 100
Следовательно,
rs = 1–6*2450.25100(1002–1)= 0.3191299 ≈ 0.319
Аналогичным образом мы можем рассчитать все остальные пары.
ii) Сладость — оценка симпатии
d^2 = 149718.5
n = 100
rs = 0.101599159915 ≈ 0.102
iii) Оценки кислотности-приязни
d^2= 161404.5
n = 100
rs = 0.0314761476 ≈ 0.031
iv) Хрусткость — оценка симпатии
d^2 =81737.0
n = 100
rs = 0.5095289528 ≈ 0.509
Итак, наконец, у нас есть коэффициент корреляции Спирмена для разных пар, как показано ниже:
b) Коэффициент детерминации (R2):
Коэффициент детерминации используется для объяснения того, насколько изменчивость одного фактора может быть вызвана его связью с другим фактором.
Поскольку R2 = rs*rs
Коэффициент детерминации для:
- Показатель симпатии к солености = 0,319 * 0,319 = 0,102
- Оценка сладости — симпатии = 0,102 * 0,102 = 0,010
- Кислотность – симпатия = 0,031*0,031=0,00099
- Хрусткость – симпатия = 0,509 * 0,509 = 0,259
c) Интерпретация результатов (a) и (b):
Из (а),из рассчитанных значений rs мы можем сказать, что "Соленость" и "Хрусткость" являются удовлетворительно ранговая корреляция (удовлетворительная монотонная связь) с «Оценками симпатии», в то время как «Сладость» и «Кислотность» существенно не коррелируют.
Из (b), поскольку мы вычислили Коэффициент детерминации (R2), мы можем сказать, что уровень дисперсии в зависимой переменной вызвал по своей связи с независимой переменной выше в случае «Соленость» и «Хрусткость» по сравнению со «Сладостью» и «Кислотностью».
d) Критерий значимости:
Коэффициент Спирмена можно использовать как статистический метод для подтверждения или опровержения гипотезы.
C.I = 95%
Итак, α = 5% = 0,05 (двусторонний тест)
Гипотеза:
H0: переменные не имеют ранговые отношения в данных.
Отклонить H0: значит сказать, что между переменными в данных существует отношение ранжирования.
N = 100
Степень свободы (DOF) = 100–2 = 98
α = 0.05
Из графика коэффициента ранговой корреляции Спирмена и таблицы мы можем найти коэффициент Спирмена равным 0,199.
i) Оценка солености-любви
rs = 0.319
коэффициент ранговой корреляции Спирмена из таблицы ранговой значимости Спирмена равен 0,199.
как 0,319 › 0,199, мы отвергаем гипотезу, т. е. существует более 95% вероятности того, что взаимосвязь является значимой (не случайной) между Атрибуты «Соленость» и «Оценка симпатии».
Аналогичным образом мы можем проверить оставшиеся пары
ii) Оценка сладости — симпатии ( rs = 0,102)
мы не можем отвергнуть гипотезу, переменные не имеют значимой ранговой связи в данных.
iii) Показатели кислотности-приязни ( rs = 0,031)
мы не можем отвергнуть гипотезу, переменные не имеют значимой ранговой связи в данных.
iv) Хрусткость — оценка симпатии (rs = 0,509)
мы отвергаем гипотезу, т.е. связь значимая (не случайная).
Экспериментальные результаты:
- Поскольку значения rs для оценок симпатии к сладкому и оценки симпатии к кислоте очень низки (ближе к 0), мы можем заключить, что оценки сладости и симпатии мало коррелированы по рангу, то же самое относится и к паре оценок кислотности-приятности. Поскольку значения rs для показателей солености и симпатии, показателей хрусткости и симпатии ближе к 0,5, атрибуты > достаточно коррелирует по рангу. Поскольку значение rs для показателей хруста и симпатии относительно выше, эти переменные более коррелированы, чем другие. Точно так же мера изменчивости одного фактора может быть обусловлена его отношением к другому фактору в порядке:
- Показатели симпатии к хрусткости › Показатели симпатии к соленому › Показатели симпатии к сладкому › Показатели симпатии к кислоте.
т. е. «оценка симпатии» может быть рассчитана по «хрусту» с меньшим количеством ошибок по сравнению с другими функциями.
- Из теста значимости:
i) Мы отклоняем гипотезу по оценкам симпатии к соленому и оценкам симпатии к хрусткости. Мы можем заключить, что существует значительная взаимосвязь (т. е. не случайная) между показателями солености и симпатии, а также между показателями хрусткости и симпатии.
ii) В оценках симпатии к сладкому и оценке симпатии к кислоте мы не можем отвергнуть гипотезу (H0) и делаем вывод, что «сладкость» и «Показатели симпатии» не имеют значимой ранговой связи, то же самое в случае «кислотности» и «оценок симпатий».
Вот ссылка репозитория Github на данные и код:
https://github.com/nraghute/Data-Science/tree/master/Spearman's%20rank%20correlation%20coefficient