У меня есть большой файл (50 ГБ), и я хотел бы подсчитать количество вхождений в нем разных строк. Обычно я бы использовал
sort bigfile | uniq -c
но файл достаточно большой, поэтому сортировка занимает непомерно много времени и памяти. я мог бы сделать
grep -cfx 'one possible line'
для каждой уникальной строки в файле, но это будет означать n проходов по файлу для каждой возможной строки, что (хотя и гораздо более удобно для памяти) занимает даже больше времени, чем оригинал.
Любые идеи?
связанный вопрос спрашивает о способе найти уникальные строки в большом файле, но я Я ищу способ подсчитать количество экземпляров каждой из них -- я уже знаю возможные строки.