может ли NLTK/pyNLTK работать на каждом языке (т.е. не на английском) и как?

Как я могу указать NLTK обрабатывать текст на определенном языке?

Время от времени я пишу специализированную процедуру NLP для тегирования POS, токенизации и т. д. в текстовом домене, отличном от английского (но все еще индуистско-европейского).

Этот вопрос, похоже, касается только разных корпусов, а не изменения кода/настроек: Тегирование POS на немецком языке

В качестве альтернативы, существуют ли какие-либо специализированные модули НЛП для иврита/испанского/польского языков для python?


person Berry Tsakala    schedule 25.11.2009    source источник


Ответы (1)


Я не уверен, что вы имеете в виду как изменения в коде/настройках. NLTK в основном полагается на машинное обучение, а «настройки» обычно извлекаются из обучающих данных.

Когда дело доходит до маркировки POS, результаты и маркировка будут зависеть от маркировщика, который вы используете/обучаете. Если вы тренируетесь самостоятельно, вам, конечно же, понадобятся данные для обучения испанскому/польскому языку. Причина, по которой их может быть трудно найти, заключается в отсутствии общедоступных материалов золотого стандарта. Для этого есть инструменты, но этот не для python (http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/).

Токенизатор nltk.tokenize.punkt.PunktSentenceTokenizer будет маркировать предложения в соответствии с многоязычными границами предложений, подробности которых можно найти в этой статье (http://www.mitpressjournals.org/doi/abs/10.1162/coli)..2006.32.4.485).

person Matti Lyra    schedule 14.12.2009
comment
благодаря. токенизатор предложения punkt кажется правильным направлением. - person Berry Tsakala; 20.12.2009
comment
Как заставить работать древовидный тег? stackoverflow.com/ вопросы/15503388/ - person alvas; 19.03.2013