У меня был аналогичный вопрос о том, какой язык лучше всего подходит для этой задачи, и Perl был ответом. Но мне все еще любопытно, как решить эту проблему с помощью C.
Я хочу дать этой программе большой текстовый файл, заполненный образцами немецкого текста, взятыми из романов, газет, веб-страниц. Мне нужен частотный список всех слов в текстовом файле, отсортированный по наиболее распространенным словам. Мне нужен список из 3000 самых распространенных немецких слов.
Если бы это была просто проблема с ASCII, то для меня это было бы детской забавой. Прочитав все утро о Unicode, я действительно удивлен, какое это минное поле.
Как это делается в Си?
У меня был друг, который собирал что-то на Python, но он все еще новичок, и его код занял около 30 минут в текстовом файле размером 1,4 МБ.
print(Counter(re.findall(r'(?u)\w+', open('input.txt').read())).most_common(3000))
. Не самый быстрый способ, но и 30 минут не займет. - person nneonneo   schedule 01.04.2013