Типы моделей Spacy и сопоставление доступных функций

Просторные модели связаны с различными «типами», включая словарь, синтаксис, сущности и векторы. Способ сопоставления сущностей и векторов с функциями, доступными в документе, очевиден (распознавание сущностей и векторы слов), но как словарный запас и синтаксис соотносятся с функциями, доступными в документе после анализа текста? Например, многоязычная модель «xx_ent_wiki_sm» не предлагает «словарь», значит ли это, что is_oov токенов будет недоступен при использовании этой модели? Я спрашиваю об этом, потому что хочу предоставить поверх Spacy веб-сервис, работающий на разных языковых моделях.


person Michael Anslow    schedule 17.11.2017    source источник


Ответы (1)


«Синтаксис» относится к зависимому синтаксическому анализу всех связанных лингвистических функций и свойств. Например, token.dep_, token.head, doc.noun_chunks или doc.sents - по сути, все, что требует синтаксического анализа зависимостей (см. эту страницу для быстрого обзора).

«словарь» означает, что Vocab предварительно заполнен рядом наиболее часто встречающихся слов. Если в модели нет словаря, все токены будут вне словарного запаса и вернут True вместо is_oov. Более крупные модели обычно также поставляются с большим словарным запасом. Модели sm также должны поставляться с базовым словарем наиболее часто используемых слов, но может возникнуть проблема с тем, как в настоящее время установлены некоторые данные, которые должны быть исправлены в следующем обновлении моделей.

person Ines Montani    schedule 17.11.2017