Я использую поддержку векторных машин для классификация документов. Мой набор функций для каждого документа - это вектор tf-idf. У меня есть документы M с каждым вектором tf-idf размера N. Предоставляя матрицу M * N.
Размер M составляет всего 10 документов, а вектор tf-idf - это вектор из 1000 слов. Так что моих возможностей намного больше, чем количество документов. Также каждое слово встречается в 2 или 3 документах. Когда я нормализую каждую функцию (слово), то есть нормализацию столбца в [0,1] с помощью
val_feature_j_row_i = ( val_feature_j_row_i - min_feature_j ) / ( max_feature_j - min_feature_j)
Это либо дает мне, конечно, 0, 1.
И это дает мне плохие результаты. Я использую libsvm с функция rbf C = 0,0312, гамма = 0,007815
Какие-нибудь рекомендации?
Следует ли мне приложить больше документов? или другие функции, такие как сигмоид или лучшие методы нормализации?