Я использую Spacy 1.8.0 с Python, и я хотел бы использовать Spacy для анализа медицинских документов. Есть способ добавить новые типы сущностей в распознаватель именованных сущностей spacy. Однако можно ли добавить названия лекарств / препаратов в качестве имен собственных в словарь spcay? Или их нужно добавлять, тренируя просторный NER? Спасибо
Как добавить собственные существительные в качестве словаря к моделям Spacy?
Ответы (1)
Я не совсем уверен, что вы хотите сделать ... но ниже приведены решения для нескольких возможностей.
У вас есть полный список интересующих вас лекарств ...
я. и вам нужно специальное правило для токенизации этих строк: не рекомендовал бы этот подход, но в принципе вы можете добавить особые случаи в токенизатор.
II. и вы просто хотите их найти: Затем вам следует использовать сопоставитель, чтобы найти их эффективно после того, как вы создали документ. Затем вы можете делать все, что хотите, с найденными промежутками. Сделайте из них местоимения, если хотите.
У вас нет полного списка интересующих вас лекарств ...
я. но вы хотите их идентифицировать в целом: затем вам нужно будет обучить модель NER, чтобы распознавать их. Чтобы сгенерировать обучающие данные, вы можете взять целую кучу бумаг и использовать Matcher для поиска известных лекарств / лекарств, чтобы собрать целую кучу примеров предложений. Потом тренируешься ...
Позднее редактирование: чтобы было ясно, Vocab хранит только строки и присваивает им уникальный идентификатор для работы под капотом. Именно Tagger решает, PRON это или нет.