Расположение ресурсов обработки в конвейере GATE может иметь решающее значение для успешного аннотирования. Поэтому мне было интересно, как правильно организовать ресурсы обработки конвейера.
Как правильно организовать вычислительные ресурсы пайплайна в GATE Developer?
Ответы (2)
PR GATE должны быть организованы в соответствии с логикой. Обычно это выглядит так:
а) Очистка ранее созданных аннотаций (Аннотации Сброс PR)
б) Токенизировать текст (Tokenizer PR)
c) Разделить текст на предложения (Sentence Splitter PR).
e) Назначить POS-теги (POS Tagger PR) и т. д.
Если вы загрузите приложение ANNIE по умолчанию из GATE Developer (Файл-> Готовые приложения -> ANNIE-> Дважды щелкните «ANNIE» в узле «Приложение» в левой части GATE Developer), вы увидите типичную последовательность PR конвейера.
Вы можете организовать GATE PR следующим образом. Если вы хотите создать файл GAPP и хотите обработать его поверх документа, тогда
- Сброс документа PR
2. Энни Инглиш Токенизатор
3. Annie Gazetteer (если есть)
4.Энни приговорила Спилтера
5. Энни POS Tagger
Итак, основные шаги. Если у вас есть Ontology, то вы можете создать отдельное приложение RootFinder,
В этом Вы можете дать Английский язык, Почтовый тег, Морфологический анализатор.
После этого В первом приложении После Pos Tagger
OntoRootGazetter
, там можно дать онтологию и приложение rootFinder.
7. Затем используйте гибкий Gazetteer и в качестве параметра времени выполнения добавьте «Token.Root». Таким образом, вы можете создать новый конвейер.