Я покупаю платформу с открытым исходным кодом для написания правил грамматики естественного языка для сопоставления с образцом над аннотациями. Вы можете думать об этом как о регулярных выражениях, но с сопоставлением на уровне токена, а не на уровне символов. Такая структура должна позволять критериям соответствия ссылаться на другие атрибуты, прикрепленные к входным токенам или диапазонам, а также изменять такие атрибуты в действии.
Я знаю три варианта, которые подходят под это описание:
- Выражения GATE Java поверх аннотаций (JAPE)
- TokensRegex Stanford CoreNLP
- UIMA Рута (Учебное пособие)
- Выражение графика (GExp)*
Есть ли какие-либо другие варианты, подобные этим, доступные в настоящее время?
Связанные инструменты
- Хотя я знаю, что общие генераторы синтаксических анализаторов, такие как Antlr, также могут служить этой цели, я ищу что-то более специально разработанные для обработки естественного языка или извлечения информации.
- UIMA содержит Regex Annotator для объявления правил в XML, но, похоже, работает с символом, а не с высокоуровневыми объектами.
- Я знаю, что такого рода задачи часто выполняются с помощью статистических моделей, но для узких, структурированных областей полезно создавать правила вручную.
* С GExp «правила» фактически реализованы в коде, но, поскольку вариантов так мало, я решил включить их.