Что представляет параметр размера в gensim doc2vec

В doc2vec функции есть параметр size.

Я понимаю, что size - это размер выходного вектора, и если size=400, он захватит контент лучше, чем если бы size=100.

Однако я не понимаю, что означает size? Означает ли это, как далеко Doc2Vec будет искать от слова, чтобы предсказать следующее слово? Или что это значит?

Большое спасибо,


person mommomonthewind    schedule 16.06.2016    source источник


Ответы (1)


size - количество измерений в созданных векторах. Итак, size=100 означает, что каждый документ (фактически, документ-тег) получает 100-мерный вектор от обучения.

Больше измерений не всегда лучше: они означают более медленное обучение и большую модель. А если вы работаете с небольшим набором данных, слишком много измерений рискуют переобучиться, что не позволит модели представить обобщаемые закономерности в данных.

person gojomo    schedule 29.07.2016