Я работаю над задачей аннотации именованных сущностей в текстовом корпусе. Я нашел рекомендации в документе Определение задачи распознавания именованных объектов 1999 года. В этом документе есть рекомендации, относящиеся к титулам лиц, в частности следующее: Титулы, такие как «мистер». и имена ролей, такие как «Президент», не считаются частью имени человека. Например, в «Mr. Гарри Ширер» или «Президент Гарри Ширер», только Гарри Ширер должен быть помечен как человек.
Тем не менее, в Stanford NER есть много примеров включения титулов в тег человека (капитан Уэстон, мистер Перри и т. д.). См. здесь пример бюллетеня, который они дают. С их точки зрения на теги людей кажется, что даже «Mrs. и мисс Бейтс» должны быть отмечены как человек.
Вопрос: какое правило является наиболее общепринятым?