Как добавить собственные существительные в качестве словаря к моделям Spacy?

Я использую Spacy 1.8.0 с Python, и я хотел бы использовать Spacy для анализа медицинских документов. Есть способ добавить новые типы сущностей в распознаватель именованных сущностей spacy. Однако можно ли добавить названия лекарств / препаратов в качестве имен собственных в словарь spcay? Или их нужно добавлять, тренируя просторный NER? Спасибо


person user3776009    schedule 27.04.2017    source источник


Ответы (1)


Я не совсем уверен, что вы хотите сделать ... но ниже приведены решения для нескольких возможностей.

  1. У вас есть полный список интересующих вас лекарств ...

    я. и вам нужно специальное правило для токенизации этих строк: не рекомендовал бы этот подход, но в принципе вы можете добавить особые случаи в токенизатор.

    II. и вы просто хотите их найти: Затем вам следует использовать сопоставитель, чтобы найти их эффективно после того, как вы создали документ. Затем вы можете делать все, что хотите, с найденными промежутками. Сделайте из них местоимения, если хотите.

  2. У вас нет полного списка интересующих вас лекарств ...

    я. но вы хотите их идентифицировать в целом: затем вам нужно будет обучить модель NER, чтобы распознавать их. Чтобы сгенерировать обучающие данные, вы можете взять целую кучу бумаг и использовать Matcher для поиска известных лекарств / лекарств, чтобы собрать целую кучу примеров предложений. Потом тренируешься ...

Позднее редактирование: чтобы было ясно, Vocab хранит только строки и присваивает им уникальный идентификатор для работы под капотом. Именно Tagger решает, PRON это или нет.

person GratefulGuest    schedule 26.01.2018