Как взять суффикс при сглаживании тегов частей речи

Я делаю "Часть речи Tagger". Я обрабатываю неизвестное слово с суффиксом.

Но главная проблема заключается в том, как бы я определил количество суффиксов... должно ли оно быть заранее определено (например, подход Вайшеделя) или мне нужно взять последние несколько алфавитов слов (например, подход Самуэльссона).

Какой подход будет лучше......

nlp pos-tagger

Jatin Khurana 14.08.2014 источник

comment

Суффикса может быть недостаточно ... большинство слов OOV являются именованными объектами, суффиксы которых мало что говорят об их POS. Возможно, вы захотите рассмотреть другие функции, такие как заглавная буква первой буквы, наличие цифр и т. д. - Pierre 14.08.2014

comment

Кстати, вы разрабатываете вероятностный POS-тегер, основанный на правилах или гибридный? - Pierre 14.08.2014

comment

Он предназначен для обработки английского текста? - Pierre 14.08.2014

comment

да... это для английского языка... я разрабатываю вероятностный тег..... - Jatin Khurana 14.08.2014

Ответы (1)

arrow_upward
0
arrow_downward

Беглый поиск в Google показывает, что для английского языка достаточно подхода Вайшеделя, который имеет лишь рудиментарную морфологическую флексию. Подход Самуэльссона работает лучше (что интуитивно понятно), когда речь идет об обработке флективных языков.

Ограниченный ресурсами подход к морфо-синтаксическому тегированию - Google Книги, стр. 9 цитата:

Для обработки неизвестных слов Брантс (2000) использует метод Самуэльссона. (1993) анализ суффиксов, который, по-видимому, лучше всего подходит для флективных языков.

(Однако это не прямое сравнение с подходом Вайшеделя.)

tripleee 20.08.2014

Как взять суффикс при сглаживании тегов частей речи

Ответы (1)

Похожие вопросы