N-кратная перекрестная проверка в weka для классификации твитов

Моя цель - использовать weka для классификации множества твитов по заранее определенному набору из 3 классов (скажем, новости, образование, спорт).

В этом случае набор для обучения и набор для тестирования различаются (обучение длинных веб-страниц, тестирование только одной или двух строк твитов).

Как выполнить N-кратную перекрестную проверку для этой проблемы.

нужно ли мне смешивать набор данных для обучения и тестирования, чтобы составить один файл и применить перекрестную проверку «n» кратно, или мне нужно сначала обучить классификатор, а затем применить перекрестную проверку «n» кратности для набора тестов в weka.

Я предполагаю, что последнее имеет смысл, но я не уверен. Пожалуйста, помогите мне разобраться с этой проблемой.


person Community    schedule 20.02.2014    source источник


Ответы (1)


Характер ваших данных должен быть одинаковым при обучении и задании. Это требование делает пригодным для использования технику N-кратной перекрестной проверки.

Если у вас возникли проблемы с выбором модели, посмотрите здесь: https://vimeo.com/29569892

person user_1177868    schedule 09.07.2014