Итак, у меня есть столбец (категория), который содержит «Да» или «Нет» в моем df, и для создания более сбалансированной выборки я хочу выбрать строки с первыми 500 случаями «Да» и первыми 500 случаями «Нет» из моего набора данных.
Я пробовал этот код:
top_n(df,500, category=="Yes")
Но это выбирает ВСЕ случаи да, а не только первые 500. Я также пробовал это, но это дало мне ошибку, хотя я уверен, что это не имеет смысла.
df %>% filter(top_n(500, category == "Yes") & top_n(500, category=="No"))
Мне нужна небольшая помощь с правильным направлением