Интерпретация stat_summary = mean_cl_boot на ggplot2?

Возможно, простой вопрос. Я попытался составить график ошибок, подобный показанному на странице 532 книги Филда «Обнаружение статистики с помощью R».

Код можно найти здесь http://www.sagepub.com/dsur/study/DSUR%20R%20Script%20Files/Chapter%2012%20DSUR%20GLM3.R:

line <- ggplot(gogglesData, aes(alcohol, attractiveness, colour = gender))
line + stat_summary(fun.y = mean, geom = "point") + 
stat_summary(fun.y = mean, geom = "line", aes(group= gender)) + 
stat_summary(fun.data = mean_cl_boot, geom = "errorbar", width = 0.2) + 
labs(x = "Alcohol Consumption", y = "Mean Attractiveness of Date (%)", colour = "Gender")  

Я построил такой же график; моя переменная оси Y имеет только 4 точки (это дискретная шкала, 1-4), теперь на оси Y есть точки 1,5, 2, 2,5, в которых линии меняются.

И вопрос: что описывают эти точки и графики? Я предполагаю, что важная часть - это stat_summary(fun.data = mean_cl_boot, geom = "errorbar", width = 0.2) подсчитывают ли они наблюдения для этой группы и этого уровня (ось x)? Это частоты? Или это пропорции?

Я нашел этот http://docs.ggplot2.org/0.9.3/stat_summary.html, но он не помог мне

Спасибо


person Pulse    schedule 01.07.2013    source источник


Ответы (2)


Вот что говорится в книге на странице 83 ggplot2 mean_cl_boot()

Function          Hmisc original        Middle Range
mean_cl_boot() smean.cl.boot() Mean Standard error from bootstrap

Я думаю, что это smean.cl.boot() из пакета Hmisc, но переименованный в mean.cl.boot() в ggplot2.

и здесь - определение исходной функции из пакета Hmisc :

smean.cl.boot - это очень быстрая реализация основного непараметрического бутстрапа для получения доверительных границ для среднего значения генеральной совокупности без предположения о нормальности

person Metrics    schedule 01.07.2013

Я воспроизвел график, используя ваш код, и получил практически тот же график, что и в книге Филда «Обнаружение статистики с помощью R», рисунок 12.12, стр. 532, за исключением порядка переменных по оси x. По оси Y отображается непрерывная переменная Средняя привлекательность даты (%). 95% доверительные интервалы, созданные, как вы указываете, с помощью функции stat_summary () и аргумента mean_cl_boot, представляют собой доверительные интервалы начальной загрузки с использованием функции smean.cl.boot () в Hmisc, как указал другой комментатор выше. Эта функция описана на странице 262 документации Hmisc. документация по mean_cl_boot ggplot2 немногочисленна и основана на описании в пакете Hmisc.

Обратите внимание, что аргументы функции mean_cl_boot в ggplot2 такие же, как и в функции smean.cl.boot в пакете Hmisc. Вы можете изменить желаемый уровень достоверности со значения по умолчанию .95, используя аргумент conf.int, и количество образцов начальной загрузки, используя аргумент B. Вот, например, код для создания того же графика с доверительным интервалом 99% и 5000 образцов начальной загрузки:

line <- ggplot(gogglesData, aes(alcohol, attractiveness, colour = gender))
line + stat_summary(fun.y = mean, geom = "point") + 
stat_summary(fun.y = mean, geom = "line", aes(group= gender)) + 
stat_summary(fun.data = mean_cl_boot, conf.int = .99, B = 5000, geom = "errorbar", width = 0.2) + 
labs(x = "Alcohol Consumption", y = "Mean Attractiveness of Date (%)", colour = "Gender") 
person user2871533    schedule 25.12.2013