Проблема POS Tagger для существительных в единственном и множественном числе

ввод текста: мне всегда нравятся горячие яйца вывод [('i', 'NN'), ('всегда', 'RB'), ('лайк', 'IN'), ('hot', 'JJ'), («Яйца», «ННП»)]

согласно почтовому тегу PTB NNP является единственным, но почему в этом случае он дает NNP, а почему не NNS


person Androidapplication Team    schedule 05.04.2016    source источник


Ответы (1)


Это инициал в верхнем регистре, который вводит POS-теггер в заблуждение. Измените его на яйца, и вы получите NNS.

person user3639557    schedule 05.04.2016
comment
Вы правы на 100%, но смысл в том, что мне нужно преобразовать весь набор данных в более низкий? Так что, если он найдет чье-то имя, он также сделает его NNS, что вы думаете? - person Androidapplication Team; 05.04.2016
comment
нет, вы не должны конвертировать данные. Вам просто нужно принять тот факт, что данные не являются чистыми, а POS-теги не всегда верны. - person user3639557; 06.04.2016
comment
удивительно, но не могли бы вы мне помочь или подсказать, как я могу это почистить. серьезно, я понял твою мысль, это потрясающе - person Androidapplication Team; 06.04.2016
comment
найдите true-caser в машинном переводе (MT). Должны быть какие-то скрипты. Из памяти: в пайплайне Moses MT есть true-caser, который можно тренировать на большом количестве чистого текста. Он выучит правильный вариант слов в верхнем/нижнем регистре и преобразует тестовые данные во все, что он выучил во время обучения. Так что, вероятно (не уверен), это изменит ваши яйца на яйца и сохранит имена собственные как имена собственные (т.е. как инициалы в верхнем регистре). Обратите внимание, что это может привести к ужасным неприятным последствиям, если вы тренируете его на грязном или недостаточном тексте - вот почему я не рекомендовал его... - person user3639557; 06.04.2016