Стратифицированная выборка с использованием R или Python

У меня есть набор данных с 400 тыс. наблюдений и 250 функциями. Я хотел бы выполнить стратифицированную выборку.

Я ссылался на много ссылок, но все они после 1 или двух примеров переменных, включая Target.

Может ли кто-нибудь помочь мне, как выполнять стратифицированную выборку с использованием R/Python.

спасибо в Адаванс!


person Adarsha Murthy    schedule 13.06.2018    source источник
comment
расслаивается на что? одна переменная? это y? это числовое или категориальное?   -  person missuse    schedule 13.06.2018


Ответы (1)


Если вы сначала сгруппируете свой data.frame, вы можете попробовать каждую группу, используя dplyr sample_n()

library(dplyr)
sample.df <- df %>% group_by( ID ) %>% sample_n( 10 )
person Wimpel    schedule 13.06.2018