Выберите данные на основе распределения в Matlab

У меня есть набор данных в векторе. Если бы мне пришлось построить гистограмму данных, я бы увидел (путем тщательного анализа), что данные распределены как сумма трех распределений;

Одно нормальное распределение сосредоточено вокруг x_1 с дисперсией s_1; Одно нормальное распределение сосредоточено вокруг x_2 с дисперсией s_2; После логнормального распределения.

Мои данные, очевидно, являются подмножеством «настоящих» данных.

Что я хотел бы сделать, так это отделить случайное подмножество моих данных от моих данных, гарантируя, что полученное подмножество является разумной репрезентативной выборкой исходных данных.

Я хотел бы сделать это как можно проще в Matlab, но я новичок как в статистике, так и в Matlab, и не знаю, с чего начать.

Спасибо за любую помощь :)

Stuart McCamley 08.04.2013 источник

comment

Возможно, принадлежит Cross Validated? - Phonon 09.04.2013

comment

Что вы подразумеваете под обеспечением разумной репрезентативности выборки? Если бы вы просто выбрали случайную выборку из своего набора данных, каким образом это было бы недостаточно репрезентативным? (Не риторический вопрос — я бы хотел, чтобы вы ответили на него, чтобы я мог быть уверен в том, что вы спрашиваете!) - Chris Taylor 09.04.2013

comment

Я согласен с @ChrisTaylor. Если ваше подмножество достаточно велико, обычно вы можете предположить, что распределение такое же. Вы можете применить функцию randperm для случайного выбора подмножества данных без замен. - yuk 09.04.2013

comment

@ChrisTaylor Допустим, моя проблема более тривиальна, и я знал, что мои данные должны представлять нормальное распределение, однако, если я построю гистограмму своих данных, я увижу, что на некоторые из ячеек может быть меньше или больше подписчиков. Я не могу случайно взять слишком много баллов из корзины с подпиской или из-под нее (так как это испортит данные), и я предпочитаю не снимать слишком много баллов из корзины с переподпиской. - Stuart McCamley 10.04.2013

Ответы (1)

arrow_upward
0
arrow_downward

Если вы можете идентифицировать каждое из 3 распределений (в том смысле, что вы можете оценить их параметры), один из подходов может состоять в том, чтобы выбрать случайное подмножество ваших данных, а затем попытаться оценить параметры для каждого распределения и посмотреть, достаточно ли они близки. (по вашему же определению "близко") к параметрам оригинальных дистрибутивов. Вы должны повторить этот процесс несколько раз и посмотреть на среднюю разницу для случайного размера подмножества.

Bitwise 09.04.2013

Выберите данные на основе распределения в Matlab

Ответы (1)

Похожие вопросы