Gensim - это оптимизированный порт Word2Vec для Python (см. http://radimrehurek.com/2013/09/deep-learning-with-word2vec-and-gensim/)
В настоящее время я использую эти векторы: http://clic.cimec.unitn.it/composes/semantic-vectors.html
Я собираюсь повторить обучение модели с помощью gensim, потому что в их моделях было несколько шумных токенов. Итак, я хотел бы узнать, каковы некоторые эквивалентные параметры для word2vec
в gensim
И параметры, которые они использовали из word2vec
:
- Окно контекста из 2 слов, взвешивание PMI, без сжатия, размеры 300K
Каков эквивалент gensim при обучении модели Word2Vec?
Is it:
>>> model = Word2Vec(sentences, size=300000, window=2, min_count=5, workers=4)
Есть ли в gensim параметр веса PMI?
Какое значение min_count по умолчанию используется в word2vec?
Есть еще один набор параметров из word2vec как такового:
- Контекстное окно из 5 слов, 10 отрицательных выборок, подвыборка, 400 измерений.
Есть ли в gensim параметр отрицательных выборок?
Каков эквивалент параметров субдискретизации в gensim?