Для нового проекта мне нужно извлекать информацию с веб-страниц, точнее печатать информацию. Я использую brat для маркировки документов и начал первые эксперименты с spacy и NER. По этому поводу есть много видео и руководств, но все же остаются некоторые основные вопросы. Можно ли включить контекст сущности?
Пример текста:
Ответственный за содержание:
The Good Company GmbH 0331 Берлин
Вы можете связаться с нами по телефону +49 123 123 123.
Этот веб-сайт создан компанией good design GmbH, контакт +49 12314 453 5.
Что ж, spacy очень хорошо извлекает телефонные номера. Согласно моим последним тестам, процент ошибок составляет менее двух процентов. Я смог добиться этого уже после 250 помеченных документов, пока я пометил 450 документов, моя цель - около 5000 документов. Теперь по сути. Релевантны только номера телефонов, которые показаны в контексте предложения Ответственный за содержание, остальные номера телефонов не имеют отношения. Теперь я мог представить себе, как обучить эти вводные предложения сущностям, потому что они всегда чем-то похожи. Но как я могу создать контекст? Возможно, уже существуют модели, основанные на NER, которые делают именно это? Может кто-то уже читал какие-то подсказки или что-то по этому поводу где-то? Для новичков препятствия относительно высоки, потому что материал действительно глубок (небольшая игра слов).
Привет из Германии!