Является ли вектор документа, полученный с помощью PV-DBOW, эквивалентным среднему/сумме векторов слов, содержащихся в документе?

Я видел, что в некоторых сообщениях говорится, что среднее значение векторов слов работает лучше в некоторых задачах, чем векторы документов, полученные с помощью PV_DBOW. Какова связь между вектором документа и средним/суммой векторов его слов? Можем ли мы сказать, что вектор d приблизительно равен среднему значению или сумме его векторов слов? Спасибо!


person rabbit686    schedule 14.08.2018    source источник


Ответы (1)


Нет. Вектор PV-DBOW рассчитывается с помощью другого процесса, основанного на том, насколько хорошо вектор PV-DBOW можно постепенно подталкивать для предсказания каждого слова в тексте по очереди с помощью параллельно обученной мелкой нейронной сети.

Но простое усреднение векторов слов часто работает довольно хорошо в качестве сводного вектора для текста.

Итак, давайте предположим, что и вектор PV-DBOW, и вектор простого среднего имеют одинаковую размерность. Поскольку они загружаются из одних и тех же входных данных (одного и того же списка слов), а нейронная сеть не намного сложнее (в своем внутреннем состоянии), чем хороший набор векторов слов, производительность векторов на последующие оценки могут не сильно отличаться.

Например, если обучающие данные для модели PV-DBOW скудны или мета-параметры плохо оптимизированы, но слова-векторы, используемые для среднего-вектора, очень хорошо подходят для вашей области, может быть, простое-среднее- vector будет работать лучше для какой-то последующей задачи. С другой стороны, модель PV-DBOW, обученная на достаточном количестве текста домена, может предоставить векторы, которые превосходят простое среднее значение, основанное на векторах слов из другого домена.

Обратите внимание, что режим классификации FastText (и аналогичные режимы в StarSpace от Facebook) на самом деле оптимизирует векторы слов, чтобы они работали как части простого среднего вектора, используемого для прогнозирования известных текстовых классов. Поэтому, если вашей конечной целью является текстовый вектор для классификации, и у вас есть хороший обучающий набор данных с известными метками, эти методы также стоит рассмотреть.

person gojomo    schedule 15.08.2018