Распознавание контекстных имен и сущностей с помощью простора - как?

Для нового проекта мне нужно извлекать информацию с веб-страниц, точнее печатать информацию. Я использую brat для маркировки документов и начал первые эксперименты с spacy и NER. По этому поводу есть много видео и руководств, но все же остаются некоторые основные вопросы. Можно ли включить контекст сущности?

Пример текста:

Ответственный за содержание:

The Good Company GmbH 0331 Берлин

Вы можете связаться с нами по телефону +49 123 123 123.

Этот веб-сайт создан компанией good design GmbH, контакт +49 12314 453 5.

Что ж, spacy очень хорошо извлекает телефонные номера. Согласно моим последним тестам, процент ошибок составляет менее двух процентов. Я смог добиться этого уже после 250 помеченных документов, пока я пометил 450 документов, моя цель - около 5000 документов. Теперь по сути. Релевантны только номера телефонов, которые показаны в контексте предложения Ответственный за содержание, остальные номера телефонов не имеют отношения. Теперь я мог представить себе, как обучить эти вводные предложения сущностям, потому что они всегда чем-то похожи. Но как я могу создать контекст? Возможно, уже существуют модели, основанные на NER, которые делают именно это? Может кто-то уже читал какие-то подсказки или что-то по этому поводу где-то? Для новичков препятствия относительно высоки, потому что материал действительно глубок (небольшая игра слов).

Привет из Германии!


person Rocking Projects    schedule 29.06.2020    source источник


Ответы (1)


Если я правильно понимаю ваш вопрос и вариант использования, я бы посоветовал следующий подход:

  • Обучите / спроектируйте какую-нибудь систему, которая распознает все телефонные номера - похоже, у вас это уже есть
  • Обучите классификатор текста распознавать ответственные за предложения содержания.
  • Внедрить некоторую эвристику (возможно, основанную на правилах?), Чтобы определить, связан ли какой-либо распознанный телефонный номер с каким-либо из предполагаемых ответственных за содержание предложений - возможно, используя простые функции, такие как количество предложений между ними, взяв первый номер телефона. после предложения и т. д.

В общем, я бы посоветовал решать каждую задачу НЛП отдельно, а затем связывать информацию по всему документу.

person Sofie VL    schedule 30.06.2020
comment
Если это было полезно, не стесняйтесь проголосовать / принять в качестве ответа ;-) - person Sofie VL; 04.07.2020