Как сортировать китайские, японские и корейские (CJK) символы в Perl?
Насколько я могу судить, сортировка символов CJK по количеству штрихов, а затем по радикалу, по-видимому, является способом сортировки этих языков. Есть также несколько методов сортировки по звукам, но они менее распространены.
Я пробовал использовать:
perl -e 'print join(" ", sort qw(工 然 一 人 三 古 二 )), "\n";'
# Prints: 一 三 二 人 古 工 然 which is incorrect
И я пытался использовать Unicode::Collate из CPAN, но он говорит:
По умолчанию унифицированные иероглифы CJK упорядочены в порядке кодовых точек Unicode...
Если бы я мог получить базу данных количества штрихов на символ, я мог бы легко отсортировать все символы, но, похоже, это не входит в состав Perl и не инкапсулировано ни в одном модуле, который я смог найти.
Если вы знаете, как сортировать CJK на других языках, было бы полезно упомянуть об этом в ответе на этот вопрос.