сравнение двух распределений с критерием хи-квадрат

Я пытаюсь сравнить две функции распределения вероятностей с тестом хи-квадрат. Формула для вычисления суммы хи-квадрат [(o-e)^2/e] указывает, что результат не нормализован (т. е. если вы измените единицы измерения o и e, вы можете получить другое значение хи-квадрат). применить этот тест, должен ли я использовать только «bincounts» для o и e?

Если два сравниваемых распределения имеют разные x-диапазоны, как мне включить это в тест? (например, распределение 1 может быть выборкой от 0 до 100, а распределение 2 может быть выборкой от 100 до 200).

Должен ли я использовать какой-то другой тест для сравнения двух дистрибутивов?


person cjkramer    schedule 11.11.2014    source источник
comment
Что конкретно вы подразумеваете под словом сравнить? Проверьте, есть ли у них общие моменты? Что у них одинаковое распределение, но разные параметризации? Что одно из них является линейным или нелинейным преобразованием другого? Говорить сравнить слишком двусмысленно.   -  person pjs    schedule 11.11.2014
comment
Этот вопрос лучше задать на stats.stackexchange.com.   -  person jlhoward    schedule 11.11.2014
comment
Голосование закрыто по причине, указанной @jhoward. Я думаю, что пользователи с › 20K должны иметь возможность переносить вопросы без вмешательства модератора.   -  person IRTFM    schedule 11.11.2014


Ответы (1)


(1) Да, критерий хи-квадрат применяется только к подсчетам бинов.

(2) Если вы уже знаете, что два дистрибутива не совпадают, это бессмысленно; если у вас достаточно большая выборка, вы отвергнете нулевую гипотезу о том, что они одинаковы. «У меня большая выборка» — не интересный и не полезный вывод. Это относится к любому тесту значимости нулевой гипотезы, такому как критерий хи-квадрат или критерий Колмогорова-Смирнова. (Даже если вы априори не знаете, что распределения одинаковы, я склонен утверждать, что проверка значимости по-прежнему бесполезна, но это другой вопрос.)

person Robert Dodier    schedule 11.11.2014