Я получаю текст с тегом POS в R в виде:
id type start end features
1 слово 1 5 POS=NNP
2 слово 7 8 POS=IN
.....
Я хочу получить слово, которое оно пометило, например, вместо столбца «тип» со всеми значениями, поскольку слова извлекают фактические слова. Я могу использовать scan_tokenizer, но проблема возникает, когда есть такие формы, как «не является», тэггер POS разбивает его на «есть» и «нет», что здорово, но scan_tokenizer не токенизирует таким образом, он просто держит его в "нет". Может ли кто-нибудь помочь мне получить слово, которое R токенизировал и использовал для тега POS?
Спасибо