Гамма, эквивалентная стандартным отклонениям

У меня есть гамма-распределение, подходящее для моих данных с использованием libary(fitdistrplus). Мне нужно определить метод определения диапазона значений x, которые можно «разумно» ожидать, аналогично использованию стандартных отклонений с нормальным распределением.

Например, значения x в пределах двух стандартных отклонений от среднего могут считаться разумным диапазоном ожидаемых значений от нормального распределения. Есть ли предложения о том, как определить аналогичный диапазон ожидаемых значений на основе параметров формы и скорости гамма-распределения?

... может быть, что-то вроде определения двух значений x, между которыми содержится 95% данных?


person viridius    schedule 09.10.2015    source источник
comment
Насколько мне известно (что не так уж далеко), при работе за пределами нормы, если вы хотите определить стандартные отклонения, вам необходимо нормализовать данные, чтобы они были значимыми. В противном случае вы можете использовать процентили для получения значений, которые связывают 95 процентов данных, понимая, что они функционируют иначе, чем стандартное отклонение с точки зрения вероятности.   -  person Badger    schedule 10.10.2015


Ответы (2)


Предположим, у нас есть случайная величина, которая имеет гамма-распределение с формой alpha=2 и коэффициентом beta=3. Мы ожидаем, что это распределение будет иметь среднее значение 2/3 и стандартное отклонение sqrt(2)/3, и мы действительно видим это в смоделированных данных:

mean(rgamma(100000, 2, 3))
# [1] 0.6667945
sd(rgamma(100000, 2, 3))
# [1] 0.4710581
sqrt(2) / 3
# [1] 0.4714045

Было бы довольно странно определять доверительные интервалы как [mean - gamma*sd, mean + gamma*sd]. Чтобы понять, почему, подумайте, выбрали ли мы gamma=2 в приведенном выше примере. Это даст доверительный интервал [-0.276, 1.609], но гамма-распределение не может даже принимать отрицательные значения, и 4,7% данных попадают выше 1,609. Это, по крайней мере, не очень сбалансированный доверительный интервал.

Более естественным выбором могло бы быть принятие 0,025 и 0,975 процентилей распределения в качестве доверительного диапазона. Мы ожидаем, что 2,5% данных окажутся ниже этого диапазона и 2,5% данных окажутся выше диапазона. Мы можем использовать qgamma, чтобы определить, что для параметров нашего примера доверительный диапазон будет [0.081, 1.857].

qgamma(c(0.025, 0.975), 2, 3)
# [1] 0.08073643 1.85721446
person josliber♦    schedule 09.10.2015

Среднее ожидаемое значение гаммы:

E[X] = k * theta  

Разница равна Var[X] = k * theta^2, где k - форма, а theta - масштаб.

Но обычно я использую 95% квантилей для обозначения разброса данных.

person MC Kwit    schedule 09.10.2015