Разница между ОМУ и СУ-ОМУ

В предыдущем рассказе я представил Расстояние для перемещения слов (WMD), которое измеряет расстояние между встраиваемыми словами. Вы можете заметить, что между словами нет механизма взвешивания. Как взвешивание помогает в задачах НЛП? Таким образом, Huang et al. предложил усовершенствование и назвал расстояние контролируемого перемещения слов (S-WMD).

Знакомство с дистанцией контролируемого перемещения слов (S-WMD)

До введения встраивания слов наиболее многообещающими навыками для измерения задач НЛП являются набор слов (BoW), скрытое семантическое индексирование (LSI) и скрытый семантический анализ (LSA).

Word Mover’s Distance (WMD) представлен в 2015 году. Он использует слово emveddings (word2vec представлен в 2013 году). Он использует другой подход, который заключается в измерении расстояния до земного движителя для измерения разницы между векторами. Год спустя Хуанг и др. предложила усовершенствование, которое называется дистанцией контролируемого перемещения слов (S-WMD).

Короче говоря, алгоритм WMD измеряет минимум для переноса одного вектора слова в другой вектор в двух документах. Если в двух документах содержится много слов, достаточно небольшого движения для переноса между двумя документами. Другими словами, эти два документа можно отнести к схожим документам.

Весовой механизм

Как весовой механизм помогает в задаче НЛП? Введение веса помогает решить проблему классификации документов.

Интуитивно понятно, что предварительно обученные векторы слов должны быть очень хорошими, поскольку они обучаются на большом количестве данных. Однако существует известная проблема, заключающаяся в том, что предварительно обученные векторы могут не очень хорошо подходить для некоторых задач. Например, предварительно обученные векторы могут складывать всю съедобную пищу вместе и смешивать овощи и мясо вместе. Что, если проблема классификации будет определять, является ли это вегетарианцем.

С другой стороны, два документа содержат много слов, но это не означает, что они оба описывают одну и ту же тему. Например, «Я хожу в школу, чтобы учить ученика» и «Я хожу в школу, чтобы учить английский». Это может быть разговор о школьной жизни, но также может быть разговор о школьной задаче между разными сторонами. Другими словами, это действительно зависит от задач НЛП. Это может иметь отношение, а может и не быть.

Обо мне

Я специалист по анализу данных в Bay Area. Сосредоточение внимания на последних достижениях науки о данных, искусственного интеллекта, особенно в области НЛП и связанных с платформами. Вы можете связаться со мной из Medium Blog, LinkedIn или Github.

Ссылка

Хуан Гао, Го Чуан, Куснер Мэтт Дж., Сунь Юй, Вайнбергер Килиан К., Ша Фэй. 2016. https://papers.nips.cc/paper/6139-supervised-word-movers-distance.pdf

S-WMD в Matlab (Оригинал)

S-WMD на питоне