Использование токенизатора в openNLP

Я получаю текст с тегом POS в R в виде:

id type start end features
1 слово 1 5 POS=NNP
2 слово 7 8 POS=IN

.....

Я хочу получить слово, которое оно пометило, например, вместо столбца «тип» со всеми значениями, поскольку слова извлекают фактические слова. Я могу использовать scan_tokenizer, но проблема возникает, когда есть такие формы, как «не является», тэггер POS разбивает его на «есть» и «нет», что здорово, но scan_tokenizer не токенизирует таким образом, он просто держит его в "нет". Может ли кто-нибудь помочь мне получить слово, которое R токенизировал и использовал для тега POS?

Спасибо

nlp opennlp

Anurag H 16.11.2014 источник

Ответы (1)

arrow_upward
1
arrow_downward

Почему бы вам не использовать теггер POS в Иллинойсе? Его легко использовать и визуализировать:

http://cogcomp.cs.illinois.edu/page/software_view/3

http://cogcomp.cs.illinois.edu/demo/pos/?id =4

Daniel 17.11.2014

Привет Даниил, спасибо за это. Несколько вопросов, которые приходят мне на ум: (1) Имеет ли она те же уровни точности, что и модель максимальной энтропии? (2) Может ли он работать с папкой, содержащей несколько файлов? Я также использовал тегировщик деревьев, который подходит для второй части, но я немного обеспокоен некоторой точностью. Пока мне нравится Стэнфордская модель, но я не знаю, как заставить ее работать с несколькими файлами и получить структурированный вывод. - Anurag H; 18.11.2014

(1) В представленном документе это одна из самых современных моделей. (2) Определенно возможно для них обоих. Если вы используете их программно, вы можете читать и анализировать каждый файл один за другим. - Daniel; 19.11.2014

Похожие вопросы

Как сделать «структуру» нулевой по определению?
Касательно сборки scons для iotivity на linux
numpy vectorized: проверьте, заканчиваются ли строки в массиве строками в другом массиве
Как выполнить скрипт python на основе сервера ssh-соединения?
Использование sonarlint-cli для анализа C++
Django исключает набор запросов __in для * каждого * элемента в списке
Разбор данных JSON из переменной Ruby
Почему мой вызов действия контроллера Razor не работает при вызове через Ajax в функции Javascript?
Назначение HTML-контента переменной в Google Spreadsheet Script
Я хочу сделать футбольный мяч с помощью IOS SpriteKit.
Проблемы разрешения C# WPF
Как программно установить APK из службы
Ошибка ядра при использовании ноутбука Jupyter
Сопоставьте ключ и значение с массивом строк
Переключение многих идентификаторов div
Библиотека Rust для проверки двоичных файлов .rlib
Как программно создать новый спринт в JIRA?
Код Visual Studio в Linux. Как запустить приложение C#, если app.js не существует и не должен
Суммируйте дату двух таблиц, сравните их и верните новый столбец на основе сравнения
Файл хорошо передается без буферизации, но частично передается во время буферизации