Руководство для начинающих по регрессионному анализу и проверке гипотез

Я всегда думал об этом вопросе. Давайте проанализируем некоторые данные и посмотрим, могут ли они помочь нам ответить на этот вопрос.

Я буду использовать R для этого анализа. Я буду использовать данные об уровне самоубийств и ВВП по странам, собранные ВОЗ.

Выбор наших переменных

Какие переменные мы должны изучить, чтобы ответить на этот вопрос? Самый распространенный способ, с помощью которого экономисты измеряют богатство страны, использует ВВП на душу населения. Я не буду вдаваться в детерминанты ВВП страны, поскольку это не имеет отношения к интересующему нас вопросу. Однако ВВП на душу населения — это просто значение ВВП страны за данный год, деленное на численность населения этой страны. Итак, это наша первая переменная. Для этого анализа вместо того, чтобы рассматривать тенденции внутри стран, я рассчитал средний показатель ВВП (на душу населения) каждой страны за все годы, за которые имеются данные.

Теперь нам нужно найти способ измерить уровень самоубийств в данной стране. Для этого анализа я буду использовать самоубийств на 100 тысяч в качестве переменной, которая представляет собой просто количество людей, совершивших самоубийство в стране, деленное на население страны, а затем умноженное на 100 000.

Пока у нас есть две переменные: ВВП на душу населения и количество самоубийств на 100 000 человек. Какая переменная является нашей зависимой переменной, а какая независимой? Вернемся к интересующему нас вопросу: в более богатых странах уровень самоубийств выше, чем в более бедных? Другими словами, мы подозреваем, что ВВП страны на душу населения влияет на уровень самоубийств в этой стране. Таким образом, уровень самоубийств — наша зависимая переменная, а ВВП на душу населения — наша независимая переменная.

Анализ

Теперь, когда мы знаем, какие переменные изучать, давайте проведем анализ. Лучший способ изучить взаимосвязь между двумя переменными — провести регрессионный анализ. Математически мы можем записать наше отношение интереса как:

Если это уравнение поначалу кажется пугающим, не волнуйтесь, оно обретет смысл через некоторое время. Как видите, у нас есть зависимая переменная (самоубийства на 100 000) и только одна независимая переменная (ВВП на душу населения), и, поскольку у нас есть только одна независимая переменная, это простая модель линейной регрессии.

Хорошо, теперь у нас есть наша модель, давайте визуализируем корреляцию между ВВП на душу населения и уровнем самоубийств.

Интересно, похоже, что существует положительная связь между отношениями между двумя переменными. Другими словами, по мере увеличения ВВП на душу населения в стране также увеличивается уровень самоубийств. Однако, похоже, у нас есть некоторые выбросы. Выбросы могут быть проблемой, поскольку они могут исказить наши результаты, поэтому давайте удалим их.

Намного лучше. Но подождите, что это за синяя линия? Это просто наша линия регрессии, которую мы написали ранее, помните это сложное уравнение выше? Ну, это уравнение прямо здесь, но красиво визуализированное.

Теперь давайте оценим нашу модель регрессии, если мы используем наши доступные данные и оценим эту линию регрессии, и если мы попросим R предоставить нам сводку этой модели регрессии, она даст нам этот результат:

Вау, это много цифр. Но не волнуйтесь, просто сосредоточьтесь на Коэффициентах и ​​p-значении (записывается как (Pr(›|t|)), мы перейдем к p-значению через минуту.

Коэффициент пересечения (8,772e+00) в основном представляет собой оценочный уровень самоубийств, если значение ВВП на душу населения в стране равно нулю. Сейчас, конечно, это ерунда, нет страны с нулевым ВВП на душу населения, если она и была, то это определенно страна, в которой я не хочу жить. Однако оставим это значение для статистических целей.

Второй коэффициент принимает значение 1,115e-04. Что это значит? Это наклон нашей линии, или, если вы более склонны к математике, это производная нашей функции. По сути, он говорит нам, насколько изменится уровень самоубийств, если ВВП на душу населения увеличится на 1000 долларов. Для этой модели значение говорит нам, что увеличение ВВП на душу населения для данной страны на 1000 долларов связано с увеличением числа самоубийств на 100 тысяч человек на 0,1115 самоубийств. Это не большое число. Теперь, когда у нас есть коэффициенты, мы можем записать нашу оценочную регрессионную модель следующим образом:

Видишь ли, я говорил тебе, что уравнение будет иметь больше смысла.

Проверка отношений

Теперь, когда мы установили, что существует положительная связь между самоубийствами на 100 000 человек, мы хотим проверить, является ли эта связь статистически значимой или нет. Для этого мы проведем проверку гипотез.

Проверка гипотезы состоит из двух частей: нулевой гипотезы и альтернативной гипотезы. Во-первых, мы должны предположить, что нет никакой связи между уровнем самоубийств и ВВП на душу населения, что является нашей нулевой гипотезой. Наша альтернативная гипотеза состоит в том, что между двумя переменными существует взаимосвязь. Мы всегда надеемся, что у нас достаточно статистических данных, чтобы отвергнуть нуль и принять альтернативу.

Итак, как мы решаем, отвергаем ли мы нуль или нет? Мы рассмотрим нечто, называемое p-значением, проще говоря, p-значение — это вероятность того, что наша нулевая гипотеза верна. Теперь помните, мы всегда хотим отклонить нулевую гипотезу, и поэтому нам всегда нужно очень маленькое значение p.

Теперь, чтобы сделать это, нам нужно установить какое-то правило или пороговое значение для нашего p-значения, так что, если наше p-значение больше этого порога, мы не сможем отклонить нулевое значение. Этот порог называется уровнем значимости. Обычно мы используем уровень значимости 5% или 1%.

Хорошо, урок статистики окончен, давайте вернемся к нашей проблеме. Давайте проверим, каково значение p для нашего коэффициента ВВП на душу населения. Мы получили p-значение 0,0288. Для этой задачи используем уровень значимости 5%.

Теперь помните, если p-значение меньше уровня значимости, мы можем отклонить только нулевое значение. Поскольку 0,0288 меньше 0,05, мы отклоняем нулевую гипотезу и принимаем альтернативу и делаем вывод, что имеется достаточно статистических данных, чтобы сделать вывод о наличии линейной зависимости между числом самоубийств на 100 000 человек и ВВП на душу населения.

Итак, мы оценили нашу регрессионную модель и проверили взаимосвязь между двумя интересующими нас переменными. Теперь мы хотим оценить нашу модель, мы хотим увидеть, хорошая она модель или нет.

Обычный способ оценки модели — посмотреть на значение R². R² — это доля зависимой переменной, которая объясняется регрессионной моделью. Если мы вернемся к сводке регрессии, которую дал нам R, мы увидим, что у нас есть R² 0,05436. Это означает, что примерно 5% вариации числа самоубийств на 100 000 человек объясняются нашей регрессионной моделью. Это немного.

Итак, что же все это значит?

В заключение можно сказать, что существует слабая, но значимая положительная линейная зависимость — более богатые страны связаны с более высоким уровнем самоубийств, но это является слабой связью, которую можно увидеть на графике выше.