Насколько я понимаю, каждый файл в наборе данных Google Ngram содержит список ngrams, отсортированные в алфавитном порядке, а затем в числовом порядке по годам. Однако, если предположить, что данные представлены в формате UTF8 (что file
говорит правильно), и
равно 1080, где I
равно 73, поэтому я не понимаю, почему использовал_NUM
предшествует I'Academie_PRON
. Соответствующие строки из файла (начиная со строки № 131356):
использовал_NUM 2005 4 1
I'Academie_PRON 1813 1 1
Вот мой ngram-sort-test.js с выделена неработающая функция сравнения. Для запуска загрузите этот файл из Google и разархивируйте его в тот же каталог, что и ngram-sort-test.js.