Похоже, вы можете использовать gensim Doc2Vec
, но изначально он не поддерживает аргумент pretrained_emb
, а использование предварительно обученных встраиваний слов не обязательно является преимуществом для большинства приложений, особенно если у вас есть соответствующие учебные документы. Кроме того, вы обычно не сможете использовать 100-мерные словесные векторы откуда-то еще, чтобы помочь засеять 300-мерную Doc2Vec
модель. (Я удивлен, что какой бы код вы ни использовали, это несоответствие не приводит к ошибке.)
Типичная опубликованная работа с использованием этого алгоритма («Вектор абзаца») использует 10, 20 или более обучающих проходов, но (опять же при условии, что вы используете gensim) вы оставили его со значением по умолчанию всего 5.
Понижение min_count
до значения 1, отличного от значения по умолчанию, обычно ухудшает результаты, поскольку слова с таким небольшим количеством вхождений просто служат шумом, делая изученные векторы для других документов / слов менее согласованными.
Какие два предложения вы сравниваете и как?
Поскольку сам алгоритм использует рандомизированную инициализацию, а затем несколько форм случайной выборки во время обучения, а затем многопоточное обучение добавляет некоторую дополнительную рандомизацию порядка обработки текста, повторное выполнение Doc2Vec
в одном и том же корпусе обычно не выполняется. получить идентичные результаты.
Если один и тот же текст появляется дважды в обучающем наборе с разными tags
, не обязательно получить один и тот же вектор, хотя они должны быть похожими. (Как правило, они должны становиться более похожими с большим количеством проходов обучения, но меньшие документы могут показывать больше отклонений от текста к тексту или от цикла к запуску, потому что с меньшим количеством целевых слов они меньше корректируются текущей моделью. раз. (То же самое может произойти для вывода векторов, постмодельного обучения, для одного и того же текста неоднократно ... хотя настройка infer_vector()
значений steps
или alpha
может сделать результаты более стабильными от запуска к запуску.)
person
gojomo
schedule
31.03.2018