Я не знаю, чтобы кто-нибудь разделял Phrases
модель. Любая такая модель будет очень чувствительна к этапу предварительной обработки / токенизации и конкретным параметрам, используемым создателем.
Кроме высокоуровневого описания алгоритма, я не видел, чтобы Google где-либо задокументировал точный выбор токенизации / канонизации / фразового комбинирования для данных, которые вводятся в словосочетания GoogleNews
2013. Некоторые предположения о предварительной обработке можно сделать, просмотрев имеющиеся токены, но мне неизвестен какой-либо код, применяющий аналогичные варианты к другому тексту.
Вы можете попытаться имитировать их токенизацию униграммы, затем спекулятивно объединить строки униграмм в все более длинные мультипрограммы до некоторого максимума, проверить, присутствуют ли эти комбинации, а если их нет, вернуться к униграммам (или самой большой из имеющихся комбинаций). Это может быть дорого, если сделано наивно, но поддается оптимизации, если действительно важно - особенно для некоторого подмножества наиболее часто встречающихся слов - поскольку набор GoogleNews
, похоже, подчиняется соглашению о перечислении слов по убыванию частоты.
(В целом, хотя это быстрый и простой начальный набор слов-векторов, я думаю, что на GoogleNews
слишком много полагаются. В нем не будет слов / фраз и новых смыслов, которые развились с 2013 года, и любые значения, которые он улавливает, являются определяется новостными статьями за годы до 2013 года ... которые могут не соответствовать доминирующим значениям слов в других доменах. Если ваш домен не является новостным и у вас достаточно данных, вы можете выбрать собственную токенизацию для конкретного домена. комбинация, вероятно, будет работать лучше.)
person
gojomo
schedule
15.10.2020