У меня есть файл fasta следующим образом:
>SO_0001
MTKIAILVGTTLGSSEYIADEMQAQLTPLGHEVHTFLHPTLDELKPYPLWILVSSTHGAGDLPDNLQPFC
KELLLNTPDLTQVKFALCAIGDSSYDTFCQGPEKLIEALEYSGAKAVVDKIQIDVQQDPVPEDPALAWLA
QWQDQI
>SO_0002
MTTPVDAPKWPRQIPYIIASEACERFSFYGMRNILTPFLMTALLLSIPEELRGAVAKDVFHSFVIGVYFF
PLLGGWIADRFFGKYNTILWLSLIYCVGHAFLAIFEHSVQGFYTGLFLIALGSGGIKPLVSSFMGDQFDQ
>SO_0003
MTTDTIVAQATAPGRGGVGIIRISGDKATNVAMAVLGHLPKPRYADYCYFKSASGQVIDQGIALFFKGPN
SFTGEDVLELQGHGGQIVLDMLIKRVLEVEGIRIAKPGEFSEQAFMNDKLDLTQAEAIADLIDATSEQAA
KSALQSLQGEFSKEVHELVDQVTHLRLYVEAAIDFPDEEVD
Где то, что следует за «>», является идентификатором гена, а буквы, следующие за строкой «>», являются соответствующими последовательностями. Я хочу проанализировать файл и подсчитать, сколько «C» есть в последовательности для каждого идентификатора гена. Я хотел бы, чтобы мой выходной файл был файлом с разделителями табуляции, например:
SO_0001 Number of C's
SO_0002 Number of C's
SO_0003 Number of C's
и так далее...
Я использую python и думал, что это будет прямолинейно, сделав ключи идентификаторов генов в словаре, но я сделал это только с файлами с разделителями табуляции, и у меня возникли проблемы, поскольку каждая последовательность имеет разную длину и ниже идентификаторы генов. Любые предложения были бы замечательными!