Просторные модели связаны с различными «типами», включая словарь, синтаксис, сущности и векторы. Способ сопоставления сущностей и векторов с функциями, доступными в документе, очевиден (распознавание сущностей и векторы слов), но как словарный запас и синтаксис соотносятся с функциями, доступными в документе после анализа текста? Например, многоязычная модель «xx_ent_wiki_sm» не предлагает «словарь», значит ли это, что is_oov токенов будет недоступен при использовании этой модели? Я спрашиваю об этом, потому что хочу предоставить поверх Spacy веб-сервис, работающий на разных языковых моделях.
Типы моделей Spacy и сопоставление доступных функций
Ответы (1)
«Синтаксис» относится к зависимому синтаксическому анализу всех связанных лингвистических функций и свойств. Например, token.dep_
, token.head
, doc.noun_chunks
или doc.sents
- по сути, все, что требует синтаксического анализа зависимостей (см. эту страницу для быстрого обзора).
«словарь» означает, что Vocab
предварительно заполнен рядом наиболее часто встречающихся слов. Если в модели нет словаря, все токены будут вне словарного запаса и вернут True
вместо is_oov
. Более крупные модели обычно также поставляются с большим словарным запасом. Модели sm
также должны поставляться с базовым словарем наиболее часто используемых слов, но может возникнуть проблема с тем, как в настоящее время установлены некоторые данные, которые должны быть исправлены в следующем обновлении моделей.