Использование токенизатора в openNLP

Я получаю текст с тегом POS в R в виде:


id type start end features
1 слово 1 5 POS=NNP
2 слово 7 8 POS=IN

.....

Я хочу получить слово, которое оно пометило, например, вместо столбца «тип» со всеми значениями, поскольку слова извлекают фактические слова. Я могу использовать scan_tokenizer, но проблема возникает, когда есть такие формы, как «не является», тэггер POS разбивает его на «есть» и «нет», что здорово, но scan_tokenizer не токенизирует таким образом, он просто держит его в "нет". Может ли кто-нибудь помочь мне получить слово, которое R токенизировал и использовал для тега POS?

Спасибо


person Anurag H    schedule 16.11.2014    source источник


Ответы (1)


Почему бы вам не использовать теггер POS в Иллинойсе? Его легко использовать и визуализировать:

http://cogcomp.cs.illinois.edu/page/software_view/3

http://cogcomp.cs.illinois.edu/demo/pos/?id =4

person Daniel    schedule 17.11.2014
comment
Привет Даниил, спасибо за это. Несколько вопросов, которые приходят мне на ум: (1) Имеет ли она те же уровни точности, что и модель максимальной энтропии? (2) Может ли он работать с папкой, содержащей несколько файлов? Я также использовал тегировщик деревьев, который подходит для второй части, но я немного обеспокоен некоторой точностью. Пока мне нравится Стэнфордская модель, но я не знаю, как заставить ее работать с несколькими файлами и получить структурированный вывод. - person Anurag H; 18.11.2014
comment
(1) В представленном документе это одна из самых современных моделей. (2) Определенно возможно для них обоих. Если вы используете их программно, вы можете читать и анализировать каждый файл один за другим. - person Daniel; 19.11.2014