Я пытаюсь использовать word2vec, но при попытке сделать что-либо с любым словом выдает ошибку. Кажется, проблема с кодировкой, вот что я сделал:
Инициируйте word2vec:
import gensim, logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
model = gensim.models.Word2Vec.load_word2vec_format('freebase-vectors-skipgram1000/knowledge-vectors-skipgram1000.bin', binary=True)
model.init_sims(replace=True)
Проверьте это немного:
print(model)
# prints: Word2Vec(vocab=1422903, size=1000, alpha=0.025)
print(model.index2word[0])
# prints: u'/m/0dgps15'
# I would expect a readable word, how to fix that?
Ошибка:
print(model.similarity('word', 'sound'))
# An error happen: KeyError: 'word'
Я тоже пробовал загрузить модель с binary=False
, но при загрузке выдает ошибку.