Я токенизирую свой текстовый корпус на немецком языке, используя немецкую модель Spacy. Поскольку в настоящее время в spacy есть только небольшая немецкая модель, я не могу извлечь векторы слов, используя сам spacy. Итак, я использую предварительно обученные вложения слов fasttext отсюда: https://github.com/facebookresearch/fastText/blob/master/README.md#word-presentation-learning
Теперь facebook использовал токенизатор ICU для процесса токенизации, прежде чем извлекать для него вложения слов. и я использую spacy. Может кто-нибудь мне скажет, нормально ли это? Я чувствую, что spacy и токенизатор ICU могут вести себя по-другому, и если это так, то многие токены в моем текстовом корпусе не будут иметь соответствующего вектора слов
Спасибо за помощь!