Я использую стандфордское ядро НЛП. Я пробовал следующий пример. этот пример может размечать слова из текста. Однако он также извлекает знаки препинания, такие как запятая, точка и т. д. Мне было интересно, как установить свойства, которые позволяют не извлекать знаки препинания, или, альтернативно, есть ли другой способ сделать то же самое. Вот пример кода. Я знаю, что легко использовать Python, но не знаю, как это сделать на Java. Пожалуйста, предложите.
props = new Properties();
props.setProperty("annotators", "tokenize, ssplit");
pipeline = new StanfordCoreNLP(props);
String text = "this is simple text written in English,Spanish etc."
// create an empty Annotation just with the given text
Annotation document = new Annotation(text);
pipeline.annotate(document);
List<CoreMap> sentences = document.get(SentencesAnnotation.class);
for(CoreMap sentence: sentences) {
for (CoreLabel token: sentence.get(TokensAnnotation.class)) {
// this is the text of the token
String word = token.get(TextAnnotation.class);
}
}