Как использовать синтаксический анализатор / теггер SyntaxNet с API spaCy?

Я использую пакет Python spaCy для синтаксического анализа и тегирования текста и использую полученное дерево зависимостей и другие атрибуты для определения значения. Теперь я хотел бы использовать Parsey McParseface от SyntaxNet для синтаксического анализа и тегирования зависимостей (что кажется лучше), но я хотел бы продолжать использовать spaCy API, потому что он очень прост в использовании и делает много вещей, которых не делает Parsey. SyntaxNet выводит теги POS и теги / дерево зависимостей в формате CoNLL:

  1. Боб _ СУЩЕСТВУЕТ NNP _ 2 nsubj _ _
  2. принес _ VERB VBD _ 0 ROOT _ _
  3. _ DET DT _ 4 det _ _
  4. пицца _ СУЩЕСТВИТЕЛЬНОЕ NN _ 2 dobj _ _
  5. в _ ADP IN _ 2 подготовка _ _
  6. Алиса _ СУЩЕСТВУЕТ NNP _ 5 pobj _ _
  7. . _. . _ 2 пункта _ _

и spaCy, похоже, может правильно читать формат CoNLL здесь < / а>. Но я не могу понять, где в API spaCy он берет строку с CoNLL-fromatted.


person Jason    schedule 21.06.2016    source источник


Ответы (3)


Из блога spaCy:

Очевидно, мы хотим построить мост между Parsey McParseface и spaCy, чтобы вы могли использовать более точную модель с более сладким API spaCy.

Однако, похоже, предстоит еще много работы, прежде чем это станет возможным.

См. Также ответ автора spaCy здесь.

person simon    schedule 27.06.2016

Кому-нибудь удалось запустить SyntaxNet как службу? Нет проблем с загрузкой аннотаций в spaCy. Проблема в том, что SyntaxNet - это прежде всего исследовательская система, и для экспериментальных нужд было достаточно работать с пакетами текста с диска.

Если вас устраивает чтение с диска, проблем быть не должно - просто прочтите в формате CoNLL, а затем вы можете применить аннотации к объектам spaCy Doc.

person syllogism_    schedule 24.10.2016
comment
Я также изучаю это, SyntaxNet как услугу, я еще не рассматривал это подробно, но, похоже, это что-то в направлении: tensorflow.github.io/serving - person David Batista; 04.04.2017

Я не пробовал использовать spaCy, но мне удалось использовать вывод SyntaxNet внутри классов / структур Python NLTK, таких как DependencyGraph и Tree.

Вот полный пример:

http://www.davidsbatista.net/blog/2017/03/25/syntaxnet/

person David Batista    schedule 04.04.2017