Именованные лица: рекомендации, касающиеся титулов лиц

Я работаю над задачей аннотации именованных сущностей в текстовом корпусе. Я нашел рекомендации в документе Определение задачи распознавания именованных объектов 1999 года. В этом документе есть рекомендации, относящиеся к титулам лиц, в частности следующее: Титулы, такие как «мистер». и имена ролей, такие как «Президент», не считаются частью имени человека. Например, в «Mr. Гарри Ширер» или «Президент Гарри Ширер», только Гарри Ширер должен быть помечен как человек.

Тем не менее, в Stanford NER есть много примеров включения титулов в тег человека (капитан Уэстон, мистер Перри и т. д.). См. здесь пример бюллетеня, который они дают. С их точки зрения на теги людей кажется, что даже «Mrs. и мисс Бейтс» должны быть отмечены как человек.

Вопрос: какое правило является наиболее общепринятым?


person Patrick    schedule 10.11.2015    source источник


Ответы (1)


Если вы загружаете Stanford CoreNLP 3.5.2 отсюда: http://nlp.stanford.edu/software/corenlp.shtml

и запустите эту команду:

java -Xmx6g -cp "*:." edu.stanford.nlp.pipeline.StanfordCoreNLP -ssplit.eolonly -annotators tokenize,ssplit,pos,lemma,ner -file ner_examples.txt -outputFormat text

(при условии, что вы разместили несколько примеров предложений, по одному предложению на строку в ner_examples.txt)

помеченные токены будут показаны в: ner_examples.txt.out

Вы можете попробовать несколько предложений и посмотреть, как наша текущая система NER справляется с различными ситуациями. Эта система обучается на данных, в которых заголовки не помечены как PERSON, поэтому наша текущая система обычно не помечает заголовки как PERSON.

person StanfordNLPHelp    schedule 11.11.2015
comment
Насколько я понимаю, что вы говорите, старая версия Стэнфордского NER была обучена на данных, в которых заголовки помечены как PERSON, но это уже не так, я прав? - person Patrick; 11.11.2015
comment
Нет, CRF никогда не обучался на данных, заголовок которых был помечен как PERSON. Этот справочник был создан вручную, чтобы явно пометить эти конкретные последовательности токенов определенным образом. - person StanfordNLPHelp; 12.11.2015