Сортировка Google Ngram?

Насколько я понимаю, каждый файл в наборе данных Google Ngram содержит список ngrams, отсортированные в алфавитном порядке, а затем в числовом порядке по годам. Однако, если предположить, что данные представлены в формате UTF8 (что file говорит правильно), и равно 1080, где I равно 73, поэтому я не понимаю, почему использовал_NUM предшествует I'Academie_PRON. Соответствующие строки из файла (начиная со строки № 131356):

использовал_NUM 2005    4       1
I'Academie_PRON 1813    1       1

Вот мой ngram-sort-test.js с выделена неработающая функция сравнения. Для запуска загрузите этот файл из Google и разархивируйте его в тот же каталог, что и ngram-sort-test.js.


person dbkaplun    schedule 17.07.2013    source источник


Ответы (1)


На самом деле это не ответ, но мой обходной путь заключался в том, чтобы вручную отсортировать файл с помощью LC_ALL=C sort <googlebooks-eng-all-1gram-20120701-i >googlebooks-eng-all-1gram-20120701-i.sorted.

person dbkaplun    schedule 19.07.2013