DeepLearning4J - ParagraphVectors: почему сходство отрицательное?

Я использую инструмент ParagraphVector в рамках DeepLearning4j. Я тренирую модель на наборе текстовых документов, а затем вычисляю сходство между этими документами.

Теперь, как сказано на справочной странице (http://deeplearning4j.org/word2vec), показатель, используемый инструментом для вычисления сходства используется косинусное сходство, которое должно быть включено между 0 и 1. Однако для некоторых пар документов я получаю отрицательные оценки.

Кто-нибудь может сказать, почему это так?

Заранее спасибо.




Ответы (1)


По определению сходство косинусов может быть в пределах [-1, 1]. https://en.wikipedia.org/wiki/Cosine_similarity

Так что технически все еще возможно получить отрицательные значения для w2v/d2v.

Однако обычно вы не увидите -1 или даже что-то близкое к этому.

person raver119    schedule 15.03.2016