У меня есть некоторые проблемы с функцией nltk.sent_tokenize
.
Мой текст (который я хочу токенизировать) состоит из 54116 предложений, разделенных точкой. Я удалил другие знаки препинания.
Я хочу маркировать свой текст на уровне предложения с помощью nltk.sent_tokenize
.
Однако, если я применю tokenized_text = sent_tokenize(mytext)
, длина tokenized_text
составит всего 51582 вместо 54116.
Любые идеи, почему это могло произойти?
С уважением