Могу ли я токенизировать с помощью spacy, а затем извлекать векторы для этого токена, используя предварительно обученные вложения слов fastext

Я токенизирую свой текстовый корпус на немецком языке, используя немецкую модель Spacy. Поскольку в настоящее время в spacy есть только небольшая немецкая модель, я не могу извлечь векторы слов, используя сам spacy. Итак, я использую предварительно обученные вложения слов fasttext отсюда: https://github.com/facebookresearch/fastText/blob/master/README.md#word-presentation-learning

Теперь facebook использовал токенизатор ICU для процесса токенизации, прежде чем извлекать для него вложения слов. и я использую spacy. Может кто-нибудь мне скажет, нормально ли это? Я чувствую, что spacy и токенизатор ICU могут вести себя по-другому, и если это так, то многие токены в моем текстовом корпусе не будут иметь соответствующего вектора слов

Спасибо за помощь!

shasvat desai 18.06.2018 источник

comment

какой у Вас вопрос? это нормально, не вопрос, если такой подход помогает вам в достижении ваших целей, так что ничего страшного ... - shahaf 18.06.2018

comment

Разве вы не можете узнать это с помощью петли? Переберите все токены и попытайтесь получить доступ к модели [токену] и посмотрите, сколько промахов вы получите для каждого токенизатора? - Sam H. 09.07.2018

Ответы (1)

arrow_upward
1
arrow_downward

ОБНОВИТЬ:

Я попробовал описанный выше метод и после обширного тестирования обнаружил, что он хорошо подходит для моего варианта использования. Большинство (почти все) токенов в моих данных соответствовали токенам, присутствующим в fasttext, и я смог получить представление векторов слов для них.

shasvat desai 10.07.2018

Могу ли я токенизировать с помощью spacy, а затем извлекать векторы для этого токена, используя предварительно обученные вложения слов fastext

Ответы (1)

Похожие вопросы