входные данные libsvm?

Например, у меня есть набор данных для n таких людей.

userID 1 (or 2,3.....up to n)
gender male (or female)
working yes (or No)
income >$5000/month (or <$5000)
have_car yes (or no)

Я хочу предсказать, есть у человека машина или нет, исходя из других свойств (пол, работа и доход). Какой формат я должен использовать для обучения, и сколько людей я должен поставить на обучение, сколько на тестирование, если, допустим, у меня есть данные о 10 000 человек.


person Ronaldinho Learn Coding    schedule 01.05.2012    source источник


Ответы (1)


Формат: Вы должны использовать числовые данные. Таким образом, можно использовать 0 и 1 для двоичных решений.

Обучение/тестирование: для этого нет точной формулы. Кажется, у вас не так много функций, которые вы используете для классификации, - это означает, что вам не обязательно нужен огромный объем обучающих данных. Вы можете разделить его 50:50 для начала и проверить, получаете ли вы разумные результаты.

person snøreven    schedule 02.06.2012