Выберите данные на основе распределения в Matlab

У меня есть набор данных в векторе. Если бы мне пришлось построить гистограмму данных, я бы увидел (путем тщательного анализа), что данные распределены как сумма трех распределений;

Одно нормальное распределение сосредоточено вокруг x_1 с дисперсией s_1; Одно нормальное распределение сосредоточено вокруг x_2 с дисперсией s_2; После логнормального распределения.

Мои данные, очевидно, являются подмножеством «настоящих» данных.

Что я хотел бы сделать, так это отделить случайное подмножество моих данных от моих данных, гарантируя, что полученное подмножество является разумной репрезентативной выборкой исходных данных.

Я хотел бы сделать это как можно проще в Matlab, но я новичок как в статистике, так и в Matlab, и не знаю, с чего начать.

Спасибо за любую помощь :)


person Stuart McCamley    schedule 08.04.2013    source источник
comment
Возможно, принадлежит Cross Validated?   -  person Phonon    schedule 09.04.2013
comment
Что вы подразумеваете под обеспечением разумной репрезентативности выборки? Если бы вы просто выбрали случайную выборку из своего набора данных, каким образом это было бы недостаточно репрезентативным? (Не риторический вопрос — я бы хотел, чтобы вы ответили на него, чтобы я мог быть уверен в том, что вы спрашиваете!)   -  person Chris Taylor    schedule 09.04.2013
comment
Я согласен с @ChrisTaylor. Если ваше подмножество достаточно велико, обычно вы можете предположить, что распределение такое же. Вы можете применить функцию randperm для случайного выбора подмножества данных без замен.   -  person yuk    schedule 09.04.2013
comment
@ChrisTaylor Допустим, моя проблема более тривиальна, и я знал, что мои данные должны представлять нормальное распределение, однако, если я построю гистограмму своих данных, я увижу, что на некоторые из ячеек может быть меньше или больше подписчиков. Я не могу случайно взять слишком много баллов из корзины с подпиской или из-под нее (так как это испортит данные), и я предпочитаю не снимать слишком много баллов из корзины с переподпиской.   -  person Stuart McCamley    schedule 10.04.2013


Ответы (1)


Если вы можете идентифицировать каждое из 3 распределений (в том смысле, что вы можете оценить их параметры), один из подходов может состоять в том, чтобы выбрать случайное подмножество ваших данных, а затем попытаться оценить параметры для каждого распределения и посмотреть, достаточно ли они близки. (по вашему же определению "близко") к параметрам оригинальных дистрибутивов. Вы должны повторить этот процесс несколько раз и посмотреть на среднюю разницу для случайного размера подмножества.

person Bitwise    schedule 09.04.2013