Я использую Stanford Segmenter по адресу http://nlp.stanford.edu/software/segmenter.shtml в Питоне. Для китайского сегментатора всякий раз, когда он встречает английское слово, он будет разбивать слово на множество символов один за другим, но я хочу сохранить символы вместе после завершения сегментации.
Например:
你好abc我好
в настоящее время станет таким после сегментации
你好 a b c 我 好
но я хочу, чтобы это стало
你好 abc 我 好
Есть ли способ научить сегментер делать это? Есть ли для этого настройка?
Я погуглил это и не получил ответа, и попытался взломать способ (потратив на это 6 часов), чтобы сделать это, вытащив английские символы из текста, а затем вернув их после завершения сегментации, но понял, что это очень трудно сделать это эффективно. Любая помощь по этому вопросу будет принята с благодарностью.