У меня есть файл FASTA с большим количеством записей. Хотя все последовательности ДНК различны, некоторые названия FASTA идентичны. Если существует несколько копий имени, я хотел бы добавить номер, чтобы они стали уникальными именами. Например:
>NAME
ATTTTTGGGGGGTGTGTG
>NAME
ATTTTTTTTCGCGCGC
>NAME
AAACCCTTTGTG
станет:
>NAME_1
ATTTTTGGGGGGTGTGTG
>NAME_2
ATTTTTTTTCGCGCGC
>NAME_3
AAACCCTTTGTG
благодаря.
Обновить. Поскольку я все равно планировал использовать это в R, я импортировал последовательность fasta в R и использовал ее как фрейм данных, df. Затем я могу переименовать его по своему желанию, используя следующую строку:
library(plyr)
ddply(df, Name_Column, transform, Column = paste(Name_Column,seq_along(Name_Column), sep=""))
код, вдохновленный этим сообщением