Эквивалентность параметров Word2Vec и Gensim

Gensim - это оптимизированный порт Word2Vec для Python (см. http://radimrehurek.com/2013/09/deep-learning-with-word2vec-and-gensim/)

В настоящее время я использую эти векторы: http://clic.cimec.unitn.it/composes/semantic-vectors.html

Я собираюсь повторить обучение модели с помощью gensim, потому что в их моделях было несколько шумных токенов. Итак, я хотел бы узнать, каковы некоторые эквивалентные параметры для word2vec в gensim

И параметры, которые они использовали из word2vec:

  • Окно контекста из 2 слов, взвешивание PMI, без сжатия, размеры 300K

Каков эквивалент gensim при обучении модели Word2Vec?

Is it:

>>> model = Word2Vec(sentences, size=300000, window=2, min_count=5, workers=4)

Есть ли в gensim параметр веса PMI?

Какое значение min_count по умолчанию используется в word2vec?

Есть еще один набор параметров из word2vec как такового:

  • Контекстное окно из 5 слов, 10 отрицательных выборок, подвыборка, 400 измерений.

Есть ли в gensim параметр отрицательных выборок?

Каков эквивалент параметров субдискретизации в gensim?


person alvas    schedule 29.04.2015    source источник
comment
объясните пожалуйста, почему вопрос слишком широкий? В любом смысле, это очень специфично для использования API и выяснения, есть ли скрытые параметры, которые не задокументированы, и эквивалентность параметров между портом python инструмента word2vec.   -  person alvas    schedule 29.04.2015


Ответы (1)


  1. В документе, на который вы ссылаетесь, сравниваются вложения слов из ряда схем, включая Continuous Bag of Words (CBOW). CBOW - одна из моделей, реализованных в модели "word2vec" Gensim. В статье также обсуждаются вложения слов, полученные из разложения по сингулярным значениям с различными схемами взвешивания, некоторые из которых включают PMI. Между SVD и word2vec нет эквивалента, но если вы хотите выполнить SVD в gensim, это называется «LSA» или «Скрытый семантический анализ», когда выполняется обработка естественного языка.

  2. Для параметра min_count по умолчанию установлено значение 5, как это можно увидеть здесь..

  3. Отрицательная выборка и иерархический Softmax - это два приближенных метода вывода для оценки распределения вероятностей в дискретном пространстве (используется, когда нормальный softmax является слишком затратным с точки зрения вычислений). word2vec Генсима реализует и то, и другое. По умолчанию он использует иерархический softmax, но вы можете использовать отрицательную выборку, задав гиперпараметру negative значение больше нуля. Это задокументировано в комментариях в коде gensim, а также здесь .

person sinwav    schedule 11.05.2015