У меня есть файл со столбцами, разделенными табуляцией. Я хочу вычислить уникальные записи в столбце. Однако я хочу вычислить уникальность на основе только ввода в столбце и удалить все последующие маркеры в скобках.
Таблица выглядит так:
1 abc def xxx(sd) 5677
2 ddd hhh yyy(dd) 4321
3 fds ggf xxx(df) 5666
Теперь я хочу подсчитать уникальное количество вычислений xxx
и yyy
.
Таким образом, ожидаемый результат должен быть 2
, а я получаю 3
.
Код, который я использовал:
cut -f4 f.txt| sort| uniq -D |wc -l
sort
имеет параметр-k
, который позволяет вам сортировать по указанной части ввода, устраняя необходимостьcut
ввода в первую очередь. - person DevSolar   schedule 28.02.2014cut
, он равен 0, потому что четвертый столбец уникален для всех строк. - person Fred Foo   schedule 28.02.2014