Могу ли я токенизировать с помощью spacy, а затем извлекать векторы для этого токена, используя предварительно обученные вложения слов fastext

Я токенизирую свой текстовый корпус на немецком языке, используя немецкую модель Spacy. Поскольку в настоящее время в spacy есть только небольшая немецкая модель, я не могу извлечь векторы слов, используя сам spacy. Итак, я использую предварительно обученные вложения слов fasttext отсюда: https://github.com/facebookresearch/fastText/blob/master/README.md#word-presentation-learning

Теперь facebook использовал токенизатор ICU для процесса токенизации, прежде чем извлекать для него вложения слов. и я использую spacy. Может кто-нибудь мне скажет, нормально ли это? Я чувствую, что spacy и токенизатор ICU могут вести себя по-другому, и если это так, то многие токены в моем текстовом корпусе не будут иметь соответствующего вектора слов

Спасибо за помощь!


person shasvat desai    schedule 18.06.2018    source источник
comment
какой у Вас вопрос? это нормально, не вопрос, если такой подход помогает вам в достижении ваших целей, так что ничего страшного ...   -  person shahaf    schedule 18.06.2018
comment
Разве вы не можете узнать это с помощью петли? Переберите все токены и попытайтесь получить доступ к модели [токену] и посмотрите, сколько промахов вы получите для каждого токенизатора?   -  person Sam H.    schedule 09.07.2018


Ответы (1)


ОБНОВИТЬ:

Я попробовал описанный выше метод и после обширного тестирования обнаружил, что он хорошо подходит для моего варианта использования. Большинство (почти все) токенов в моих данных соответствовали токенам, присутствующим в fasttext, и я смог получить представление векторов слов для них.

person shasvat desai    schedule 10.07.2018