Ворота/Jape на испанском языке

Я читал на многих сайтах, и они говорили, что Gate поддерживает испанский язык, но я не нашел, как анализировать испанский текст с помощью Gate. Я пытался использовать древовидную метку, но получаю сообщение об ошибке: TreeTagger\tree-tagger-spanish-gate": Ошибка CreateProcess = 193, %1 не является действительным приложением Win32.

Я также пытался использовать OpenNLP, но не нашел модели для испанского языка (токенизатор, фрагмент и т. д.). Я нашел только голландский, немецкий и английский языки.

Также мне нужно определить подлежащее предложения и сказуемое. Поправьте меня, если я ошибаюсь, но я думаю, что могу сделать это с OpenNLP, потому что можно идентифицировать NP (именное словосочетание) и VP (глагольное словосочетание) с помощью синтаксического анализатора банка деревьев или с помощью плагина MuNPEx.

Саммеринг, есть ли способ установить испанский язык Gate?

Спасибо.


person mtrebi    schedule 09.08.2013    source источник


Ответы (1)


Вам нужен Cygwin, чтобы иметь возможность запускать скрипты treetagger в Windows. Сообщение об ошибке

Ошибка CreateProcess = 193, %1 нет действительного приложения Win32

подсказывает мне, что вы не установили системное свойство shell.path так, чтобы оно указывало на ваш Cygwin sh.exe, как описано в раздел TaggerFramework руководства пользователя.

Для OpenNLP есть несколько моделей поиска имен, доступных по адресу http://opennlp.sourceforge.net/models-1.5/ и модели тегов POS на https://github.com/utcompling/OpenNLP-Models/tree/master/models/es, но я нигде не вижу моделей токенизатора или чанкера. Для токенизации и разделения предложений я подозреваю, что токенизатор GATE Unicode по умолчанию (не «английский токенизатор ANNIE») и любой из разделителей предложений по умолчанию будут выполнять разумную работу.

Возможно, стоит подписаться на список рассылки пользователей шлюза и спросить там, есть ли у кого-нибудь еще испанский язык. ресурсы, которыми они были бы готовы поделиться.

person Ian Roberts    schedule 09.08.2013
comment
Сначала думаю, что сработало, я просто изменил shell.path и каталог .exe. Теперь я использую тегировщик дерева, но плагин MuNPEx не работает, как я ожидал, потому что идентифицирует только NP, а я должен сам идентифицировать VP. С другой стороны, я попробовал OpenNLP с токенизатором Unicode и т. д., но результаты были плохими. Я спрошу в списке рассылки пользователей ворот. Спасибо чувак. - person mtrebi; 12.08.2013