что такое вывод MeCab и набор тегов?

Может ли кто-нибудь просветить меня по поводу вывода MeCab по умолчанию? какая аннотация выводит MeCab и где я могу найти набор тегов для морфо-анализатора

http://mecab.sourceforge.net/

кто-нибудь может расшифровать этот вывод от MeCab?

<s>
ブギス・ジャンクション ブギス・ジャンクション ブギス・ジャンクション 名詞-一般       
に   ニ   に   助詞-格助詞-一般       
は   ハ   は   助詞-係助詞      
最も  モットモ    最も  副詞-一般       
買い  カイ  買う  動詞-自立   五段・ワ行促音便    連用形
物慣れ モノナレ    物慣れる    動詞-自立   一段  連用形
し   シ   する  動詞-自立   サ変・スル   連用形
た   タ   た   助動詞 特殊・タ    基本形
人々  ヒトビト    人々  名詞-一般       
を   ヲ   を   助詞-格助詞-一般       
も   モ   も   助詞-係助詞      
魅了  ミリョウ    魅了  名詞-サ変接続     
する  スル  する  動詞-自立   サ変・スル   基本形
品   シナ  品   名詞-一般       
揃え  ソロエ 揃える 動詞-自立   一段  連用形
が   ガ   が   助詞-格助詞-一般       
あり  アリ  ある  動詞-自立   五段・ラ行   連用形
ます  マス  ます  助動詞 特殊・マス   基本形
。   。   。   記号-句点       
</s>

person alvas    schedule 07.04.2011    source источник
comment
кто-нибудь мог интерпретировать вывод? по крайней мере, с точки зрения непрофессионала ??   -  person alvas    schedule 08.04.2011


Ответы (1)


Формат вывода в вашем примере выглядит как chasen2, который определен в файле dicrc. Это было бы:

; ChaSen (include spaces)
node-format-chasen2 = %M\t%f[7]\t%f[6]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\n
unk-format-chasen2  = %M\t%m\t%m\t%F-[0,1,2,3]\t\t\n
eos-format-chasen2  = EOS\n

Для нормального формата узла это будет:

1. surface value, including any whitespace
2. \t
3. reading
4. \t
5. root form
6. \t
7. part of speech
8. part of speech, subtype 1
9. part of speech, subtype 2
10. part of speech, subtype 3
11. \t
12. conjugation
13. \t
14. inflection
15. newline

где элементы с 7 по 10 разделены дефисами.

Дополнительные сведения см. В 出力 フ ォ ー マ ッ ト документации для mecab.

РЕДАКТИРОВАТЬ: обновлена ​​ссылка на страницу объяснения форматирования вывода MeCab.

person buruzaemon    schedule 10.04.2011
comment
спасибо Buruzaemon-san. у меня низкий уровень японского, поэтому мне было трудно читать документацию. Я попытался прочитать руководство по IPAdic 2.7.0 и немного понял, что не мог определить выходной формат. еще раз, спасибо. - person alvas; 10.04.2011
comment
Я думаю, что ссылка (документация по формату) истекла (по крайней мере, у меня не работает), страница автора на github находится по адресу taku910.github.io/mecab/#format и taku910.github.io /mecab/format.html; просто примечание, для приложений преобразования текста в речь (а также выполнения фуриганы) лично я предпочитаю использовать '--output-format-type = yomi' - person HidekiAI; 07.07.2017
comment
Спасибо, что сообщили мне об этой устаревшей ссылке, @HidekiAI. - person buruzaemon; 09.07.2017