Полиномиальная ошибка в Rapidminer при классификации n-грамм

Я пытаюсь классифицировать разные понятия в тексте, используя n-грамму. Мои данные обычно состоят из шести столбцов:

  1. Слово, которое нуждается в классификации
  2. Классификация
  3. Первое слово слева от 1)
  4. Второе слово слева от 1)
  5. Первое слово справа от 1)
  6. Второе слово справа от 1)

Когда я пытаюсь использовать SVM в Rapidminer, я получаю сообщение об ошибке, что он не может обрабатывать полиномиальные значения. Я знаю, что это можно сделать, потому что читал об этом в разных газетах. Я установил для второго столбца значение «метка» и попытался установить для остальных значение «текст» или «реальный», но, похоже, это не дало никакого эффекта. Что я делаю не так?


person TimTim    schedule 06.06.2015    source источник


Ответы (2)


Вы должны использовать оператор Support Vector Machine (LibSVM). В отличие от классической SVM, которая поддерживает только задачи двух классов, реализация LibSVM (http://www.csie.ntu.edu.tw/~cjlin/papers/libsvm.pdf) поддерживает многоклассовую классификацию, а также регрессию.

person David    schedule 09.06.2015

Одним из подходов может быть создание атрибутов с именами, равными словам, и значениями, равными расстоянию от интересующего слова. Конечно, все возможные слова должны быть представлены в виде атрибутов, поэтому входные данные будут большими.

person Andrew Chisholm    schedule 07.06.2015