Корреляция Спирмена и тест значимости

Ссылка: данные о ЗАКУСКАХ

а) Найдите корреляционную матрицу Спирмена всех порядковых атрибутов.

б) Определить коэффициент детерминации.

c) Интерпретируйте результаты двух таблиц.

d) В каждом случае выполните тест значимости с доверительной вероятностью 95%.

Мы увидим понятия коэффициента корреляции Спирмена, коэффициента детерминации, критерия значимости.

Корреляция: используется для измерения некоторой формы связи между двумя переменными, т. е. насколько сильно связаны пары переменных.

  • r = 0 означает отсутствие корреляции.
  • r = +1 (полная положительная корреляция).
  • r = -1 (совершенная отрицательная корреляция).
  • Значение r ближе к +1 или -1 указывает на высокую степень корреляции между двумя переменными.

Коэффициент корреляции Чарльза Спирмена:

  • Он используется для нахождения коэффициента корреляции между двумя порядковыми атрибутами.
  • Это измерение корреляции также называется ранговой корреляцией.
  • Этот метод применим для определения степени корреляции между двумя переменными в случае порядковых данных.
  • Он оценивает, насколько хорошо связь между двумя переменными может быть описана с помощью монотонной функции.

Мы можем найти rs следующим образом:

Во-первых, мы вычислим ранг в соответствующих столбцах, взяв различия их рангов и просуммировав квадрат различий их рангов.

После этого мы можем использовать следующую формулу:

Где di = разница между рангами i^й пары двух переменных

n = количество пар наблюдений.

-1 <= rs <=1

Коэффициент детерминации:

  • Он используется для измерения доли изменчивости подобранной модели.
  • Это квадрат корреляции (r), поэтому он варьируется от 0 до 1.
  • R2, равный 0, означает, что зависимая переменная не может быть предсказана по независимой переменной.
  • R2, равный 1, означает, что зависимая переменная может быть предсказана без ошибок по независимой переменной.

Тест значимости:

Мы можем провести тест значимости в 5 шагов:

Шаг 1 – определение гипотезы.

Шаг 2- Поиск rs (используя их ранги).

Шаг 3 – нахождение значения rs из таблицы/графика Спирмена для заданной степени свободы и уровня значимости.

Шаг 4 – Проверка того, что вычисленное значение rs выше или ниже значения rs из таблицы/графика.

Шаг 5 – Отклонение (если рассчитанное значение rs выше) или неспособность отклонить гипотезу.

И последний комментарий.

Расчеты:

Чаще всего используется корреляция Пирсона, мы можем найти матрицу корреляции в питоне следующим образом:

data.corr() # данные - это DataFrame данных SNACKS

a) Коэффициенты корреляции Спирмена-

Давайте рассчитаем коэффициенты корреляции Спирмена (rs) для наших данных "ЗАКУСКИ".

Наш набор данных SNACKS хранится в "data" DataFrame.

Мы можем увидеть первые 5 строк, используя:

data.head()

Мы можем попробовать построить график зависимости функции от целевой переменной,

Например, диаграмма рассеяния оценок «Соленость против симпатии» — все графики очень сложны, и мы не можем сказать, может ли между ними быть какая-либо корреляция.

Теперь давайте посчитаем rs,

Используя scipy.stats.spearmanr Python, мы можем рассчитать корреляционную матрицу Спирмена.

Но поскольку нас интересует только rs пар между функциями и целевой переменной. Для упрощения и более подробного пояснения посчитаем отдельно по очереди.

i) Оценка солености-любви

Мы можем использовать столбцы «Соленость» и «Оценки симпатии», вычислив их ранги, а затем следуя процедуре, описанной в теоретической части:

Здесь печатаем первые 5 строк таблицы:

Итак, мы получили d^2 = 2756,25 + 4,00 + 361,00 + 4,00 + 2450,25 = 113467,0.

n = 100

Следовательно,

rs = 1–6*2450.25100(1002–1)= 0.3191299 ≈ 0.319

Аналогичным образом мы можем рассчитать все остальные пары.

ii) Сладость — оценка симпатии

d^2 = 149718.5

n = 100

rs = 0.101599159915 ≈ 0.102

iii) Оценки кислотности-приязни

d^2= 161404.5

n = 100

rs = 0.0314761476 ≈ 0.031

iv) Хрусткость — оценка симпатии

d^2 =81737.0

n = 100

rs = 0.5095289528 ≈ 0.509

Итак, наконец, у нас есть коэффициент корреляции Спирмена для разных пар, как показано ниже:

b) Коэффициент детерминации (R2):

Коэффициент детерминации используется для объяснения того, насколько изменчивость одного фактора может быть вызвана его связью с другим фактором.

Поскольку R2 = rs*rs

Коэффициент детерминации для:

  • Показатель симпатии к солености = 0,319 * 0,319 = 0,102
  • Оценка сладости — симпатии = 0,102 * 0,102 = 0,010
  • Кислотность – симпатия = 0,031*0,031=0,00099
  • Хрусткость – симпатия = 0,509 * 0,509 = 0,259

c) Интерпретация результатов (a) и (b):

Из (а),из рассчитанных значений rs мы можем сказать, что "Соленость" и "Хрусткость" являются удовлетворительно ранговая корреляция (удовлетворительная монотонная связь) с «Оценками симпатии», в то время как «Сладость» и «Кислотность» существенно не коррелируют.

Из (b), поскольку мы вычислили Коэффициент детерминации (R2), мы можем сказать, что уровень дисперсии в зависимой переменной вызвал по своей связи с независимой переменной выше в случае «Соленость» и «Хрусткость» по сравнению со «Сладостью» и «Кислотностью».

d) Критерий значимости:

Коэффициент Спирмена можно использовать как статистический метод для подтверждения или опровержения гипотезы.

C.I = 95%

Итак, α = 5% = 0,05 (двусторонний тест)

Гипотеза:

H0: переменные не имеют ранговые отношения в данных.

Отклонить H0: значит сказать, что между переменными в данных существует отношение ранжирования.

N = 100

Степень свободы (DOF) = 100–2 = 98

α = 0.05

Из графика коэффициента ранговой корреляции Спирмена и таблицы мы можем найти коэффициент Спирмена равным 0,199.

i) Оценка солености-любви

rs = 0.319

коэффициент ранговой корреляции Спирмена из таблицы ранговой значимости Спирмена равен 0,199.

как 0,319 › 0,199, мы отвергаем гипотезу, т. е. существует более 95% вероятности того, что взаимосвязь является значимой (не случайной) между Атрибуты «Соленость» и «Оценка симпатии».

Аналогичным образом мы можем проверить оставшиеся пары

ii) Оценка сладости — симпатии ( rs = 0,102)

мы не можем отвергнуть гипотезу, переменные не имеют значимой ранговой связи в данных.

iii) Показатели кислотности-приязни ( rs = 0,031)

мы не можем отвергнуть гипотезу, переменные не имеют значимой ранговой связи в данных.

iv) Хрусткость — оценка симпатии (rs = 0,509)

мы отвергаем гипотезу, т.е. связь значимая (не случайная).

Экспериментальные результаты:

  • Поскольку значения rs для оценок симпатии к сладкому и оценки симпатии к кислоте очень низки (ближе к 0), мы можем заключить, что оценки сладости и симпатии мало коррелированы по рангу, то же самое относится и к паре оценок кислотности-приятности. Поскольку значения rs для показателей солености и симпатии, показателей хрусткости и симпатии ближе к 0,5, атрибуты > достаточно коррелирует по рангу. Поскольку значение rs для показателей хруста и симпатии относительно выше, эти переменные более коррелированы, чем другие. Точно так же мера изменчивости одного фактора может быть обусловлена ​​его отношением к другому фактору в порядке:
  • Показатели симпатии к хрусткости › Показатели симпатии к соленому › Показатели симпатии к сладкому › Показатели симпатии к кислоте.

т. е. «оценка симпатии» может быть рассчитана по «хрусту» с меньшим количеством ошибок по сравнению с другими функциями.

  • Из теста значимости:

i) Мы отклоняем гипотезу по оценкам симпатии к соленому и оценкам симпатии к хрусткости. Мы можем заключить, что существует значительная взаимосвязь (т. е. не случайная) между показателями солености и симпатии, а также между показателями хрусткости и симпатии.

ii) В оценках симпатии к сладкому и оценке симпатии к кислоте мы не можем отвергнуть гипотезу (H0) и делаем вывод, что «сладкость» и «Показатели симпатии» не имеют значимой ранговой связи, то же самое в случае «кислотности» и «оценок симпатий».

Вот ссылка репозитория Github на данные и код:

https://github.com/nraghute/Data-Science/tree/master/Spearman's%20rank%20correlation%20coefficient

СПАСИБО!