Учитывая набор данных с неравномерным распределением (высоким пиком), я хочу выполнить повторную выборку, чтобы создать новый набор данных с приблизительно однородным распределением. Мой подход:
- Разделите данные на бины.
- Целевой уровень ячейки = наименьшее количество выборок в ячейке среди всех ячеек.
- Случайным образом удаляйте образцы до тех пор, пока количество каждого бина не будет равно целевому уровню бина.
Есть ли лучшая техника?