Как взять суффикс при сглаживании тегов частей речи

Я делаю "Часть речи Tagger". Я обрабатываю неизвестное слово с суффиксом.

Но главная проблема заключается в том, как бы я определил количество суффиксов... должно ли оно быть заранее определено (например, подход Вайшеделя) или мне нужно взять последние несколько алфавитов слов (например, подход Самуэльссона).

Какой подход будет лучше......


person Jatin Khurana    schedule 14.08.2014    source источник
comment
Суффикса может быть недостаточно ... большинство слов OOV являются именованными объектами, суффиксы которых мало что говорят об их POS. Возможно, вы захотите рассмотреть другие функции, такие как заглавная буква первой буквы, наличие цифр и т. д.   -  person Pierre    schedule 14.08.2014
comment
Кстати, вы разрабатываете вероятностный POS-тегер, основанный на правилах или гибридный?   -  person Pierre    schedule 14.08.2014
comment
Он предназначен для обработки английского текста?   -  person Pierre    schedule 14.08.2014
comment
да... это для английского языка... я разрабатываю вероятностный тег.....   -  person Jatin Khurana    schedule 14.08.2014


Ответы (1)


Беглый поиск в Google показывает, что для английского языка достаточно подхода Вайшеделя, который имеет лишь рудиментарную морфологическую флексию. Подход Самуэльссона работает лучше (что интуитивно понятно), когда речь идет об обработке флективных языков.

Ограниченный ресурсами подход к морфо-синтаксическому тегированию - Google Книги, стр. 9 цитата:

Для обработки неизвестных слов Брантс (2000) использует метод Самуэльссона. (1993) анализ суффиксов, который, по-видимому, лучше всего подходит для флективных языков.

(Однако это не прямое сравнение с подходом Вайшеделя.)

person tripleee    schedule 20.08.2014