Может ли кто-нибудь посоветовать, как лучше всего сделать следующее?
У меня есть три переменные (X, Y и Z) и четыре группы (1, 2, 3 и 4). Я использовал дискриминантный функциональный анализ в SPSS, чтобы предсказать принадлежность к группе известных сгруппированных данных для использования с будущими разгруппированными данными.
В идеале я хотел бы иметь возможность случайным образом выбирать увеличивающееся количество подмножества данных, чтобы увидеть, сколько наблюдений требуется для достижения желаемого процента правильной классификации.
Однако я понимаю, что это может быть сложно. Поэтому я ищу, чтобы сделать это по средствам.
Например, предположим, что переменная X имеет среднее значение 141 для группы 1. Это среднее значение могло быть рассчитано на основе 2000 наблюдений. Однако может случиться так, что среднее значение возникло, скажем, при 700 наблюдениях. Я хотел бы иметь возможность рассчитать, при каком количестве наблюдений/случаев средние уровни в моих данных. Например, возможно, начиная с 10 наблюдений и повторяя это случайным образом, скажем, 50 или 100 раз, затем увеличивая до 20 наблюдений... и так далее.
Я понимаю, что это форма тестирования методом Монте-Карло. У меня есть доступ к SPSS 15, 17 и 18 и Excel. У меня также есть доступ к minitab 15 и 16 и amos17, и я скачал «R», но я не знаком с ними. Мой опыт работы с SPSS и Excel. Я попробовал некоторый синтаксис в SPSS, модифицированный из этого.. http://pages.infinit.net/rlevesqu/Syntax/RandomSampling/Select2CasesFromEachGroup.txt, но с моей стороны все равно потребуется довольно много времени, чтобы ввести номер подмножества и т. д. и т. д.
Надеюсь, кто-то может помочь.
Спасибо за чтение.
Энди