Я пытаюсь создать данные для проекта. Данные должны генерироваться случайным образом из заранее определенных списков. По сути, у меня есть реальные данные, но их очень мало. Чтобы построить некоторые классификаторы (тресс принятия решений, машины опорных векторов и наивный байесовский метод), я хочу произвести 100 000 наблюдений.
Я новичок в кодировании (я могу делать элементарные вещи в Matlab и R) и сначала пытался сделать это в Excel, однако функция RANDOMA генерировала очень равномерно распределенные данные. Чтобы быть более конкретным, я использую 5 демографических единиц информации, чтобы предсказать, какой розничный торговец выберет покупатель, например розничный продавец A, B или C. Списки демографической информации приведены ниже:
1) Возрастная группа (18-24, 25-34, 35-44, 45-54, 55+) 2) Пол (мужской или женский) 3) Группа дохода (‹10 000 фунтов стерлингов, 10 000–19,99 000 фунтов стерлингов, 20 000 фунтов стерлингов) 29,99 тыс. Фунтов стерлингов и т. Д.) 4) Регион (Лондон, Уэльс, Шотландия, Северная Ирландия, Юго-Запад и т. Д.) 5) Тип работы (полный рабочий день, неполный рабочий день, студент и т. Д.)
Когда я попытался случайным образом создать 100 000 наблюдений (каждое наблюдение было случайным образом выбрано по одному из каждого из 5 списков), они были почти одинаково распределены между ними. Хуже того, ценность, которую я произвольно присвоил продавцу (A, B или C), также была равной.
Идея состоит в том, чтобы разделить эти случайно сгенерированные данные на данные для обучения и тестирования, чтобы я мог построить несколько моделей и проверить их пригодность.