Я пытаюсь добавить несколько новых слов в словарь предварительно обученной модели HuggingFace Transformers. Я сделал следующее, чтобы изменить словарь токенизатора, а также увеличить размер встраивания модели:
tokenizer.add_tokens(['word1', 'word2', 'word3', 'word4'])
model.resize_token_embeddings(len(tokenizer))
print(len(tokenizer)) # outputs len_vocabulary + 4
Но после обучения модели на моем корпусе и ее сохранения я обнаружил, что размер сохраненного словаря токенизатора не изменился. После повторной проверки я обнаружил, что вышеупомянутый код не меняет размер словаря (tokenizer.vocab_size все тот же), и изменился только len (tokenizer).
Итак, теперь мой вопрос; в чем разница между tokenizer.vocab_size и len (tokenizer)?