Я новичок в stackoverflow. Пожалуйста, простите мой плохой английский.
Я использую word2vec в школьном проекте. Я хочу работать с корпусом для конкретной предметной области (например, с учебником по физике) для создания векторов слов с помощью Word2Vec. Эта автономная версия не дает хороших результатов из-за меньшего размера корпуса. Это особенно больно, поскольку мы хотим оценивать слова, которые вполне могут находиться за пределами словарного запаса учебника.
Мы хотим, чтобы учебник закодировал предметно-зависимые отношения и семантическую «близость». «Квант» и «Гейзенберг» особенно близки в этом учебнике, например. что может не относиться к фоновому корпусу. Для обработки общих слов (например, «любой») нам понадобится базовая фоновая модель (например, та, что предоставлена Google на сайте word2vec).
Есть ли способ заменить фоновую модель, используя наш новый корпус? Просто тренировки на корпусе и т. Д. Не работают.
Есть ли попытки объединить векторные представления из двух корпусов - общего и частного? Я не нашел ни одного в своих поисках.
model.alpha = model.alpha * bias
. Но это может иметь другие эффекты в зависимости от корпуса. - person Mehdi   schedule 08.06.2015