Распознавание именованных объектов из личного справочника с использованием Python

Я пытаюсь распознавать именованные сущности в python, используя NLTK. Я хочу извлечь личный список навыков. У меня есть список навыков, и я хотел бы найти их в заявке и пометить навыки. Я заметил, что в NLTK есть тег NER для предопределенных тегов, таких как Person, Location и т. д. Есть ли в Python внешний тег для справочника, который я могу использовать? есть идеи, как сделать это более сложным, чем поиск терминов (иногда многословных терминов)?

Спасибо, Ассаф


person user617861    schedule 22.02.2011    source источник


Ответы (2)


В последнее время я недостаточно использовал NLTK, но если у вас есть слова, которые, как вы знаете, являются навыками, вам не нужно выполнять NER — просто текстовый поиск.

Может быть, использовать Lucene или какую-либо другую библиотеку поиска, чтобы найти текст, а затем аннотировать его? Это много работы, но если вы работаете с большим количеством данных, это может быть нормально. В качестве альтернативы вы можете собрать поиск по регулярным выражениям, который будет медленнее, но, вероятно, будет работать нормально для небольших объемов данных и его будет намного проще реализовать.

person nflacco    schedule 09.07.2011

Взгляните на RegexpTagger. и, наконец, RegexpParser, я думаю, это именно то, что вы ищете.

Вы можете создавать свои собственные POS-теги, т.е. сопоставьте навыки с тегом, а затем легко определите грамматику.

Некоторый пример кода для тега в этом pdf.

person Savino Sguera    schedule 08.08.2011