У меня двоякий вопрос, но, надеюсь, не слишком сложный. И обе части конкретно относятся к модели Skip-Gram в Word2Vec:
Первая часть касается структуры: насколько я понимаю, модель Skip-Gram основана на одной нейронной сети с одной входной матрицей весов W, одним скрытым слоем размера N и выходным весом C. матрицы W ', каждая из которых используется для создания одного из выходных векторов C. Это верно?
Вторая часть касается выходных векторов: насколько я понимаю, каждый выходной вектор имеет размер V и является результатом функции Softmax. Каждый выходной вектор узел соответствует индексу слова в словаре, а значение каждого узла - это вероятность того, что соответствующее слово встречается в этом месте контекста (для данного входного слова). Целевые выходные векторы, однако, не кодируются в горячем режиме, даже если обучающие экземпляры кодируются. Это верно?
Как я себе представляю, это что-то вроде следующих строк (выдуманный пример):
Предполагая, что словарь ['quick', 'fox', 'jumped', 'lazy', 'dog'] и контекст C = 1, и предполагая, что для входного слова 'jumped' я вижу два выходных вектора, выглядящих как это:
[0,2 0,6 0,01 0,1 0,09]
[0,2 0,2 0,01 0,16 0,43]
Я бы интерпретировал это как «лиса», как наиболее вероятное слово, которое появляется перед словом «прыгнула» (p = 0,6), а «собака» - как наиболее вероятное слово, которое появляется после него (p = 0,43).
Я имею это право? Или я совсем выключен? Любая помощь приветствуется.