Как использовать один и тот же фильтр StringToWordVector для обучающих данных и невидимых данных

Я использовал оболочку LibSVM для weka и успешно создал классификатор для классификации новостей (спорт и бизнес). Я оценил его, используя метод перекрестной проверки, и точность принята. Итак, теперь мне нужно классифицировать новую новостную статью, используя модель. Прежде чем передать его классификатору, мне нужно перенести его в вектор признаков, используя фильтр StringToWordVector в weka. Как бы то ни было, мне нужно использовать тот же фильтр, который я использовал для обучающих данных. Как я могу этого добиться?


person Chamath Sajeewa    schedule 02.11.2014    source источник


Ответы (1)


Мы можем использовать параметр пакетной фильтрации, как указано ниже,

 StringToWordVector filter = new StringToWordVector(); //initialise the filter
 //set filter options
 filter.setInputFormat(trainingData); //set input format to filter using training data
 Instances trainingDataFiltered = Filter.useFilter(trainingData, filter); // filter training data
 Instances testDataFiltered = Filter.useFilter(trainingData, filter); // filter test data
person Chamath Sajeewa    schedule 15.12.2014