Определение имен собственных в аббревиатурах с помощью POS Tagger

Я работаю над поисковой системой на естественном языке для CDS Страсбурга. (Центр астрономических данных Страсбурга)

Мне было интересно, как Стэнфордский тегировщик частей речи помечает аббревиатуры, поскольку аббревиатура иногда помечается как NNP, а иногда помечается как NN.

Я не смог точно определить, как программа решает, является ли аббревиатура, такая как «CDS» или «NASA», NNP или NN.

Если кто-то может помочь мне по теме, я буду очень рад. :)

Хорошего дня.


person Aymon Desaint Acheul    schedule 09.05.2017    source источник


Ответы (1)


Теггер POS — это статистическая модель, обученная на тысячах предложений из Wall Street Journal. На него могут влиять такие факторы, как последовательность символов в слове и слова, окружающие слово в предложении.

Более подробная информация доступна здесь: https://nlp.stanford.edu/software/tagger.shtml

person StanfordNLPHelp    schedule 11.05.2017