我需要在一个包含100多个蛋白质序列的fasta文件中搜索主题“ ELVIS”。我需要计算有多少蛋白质具有“ ELVIS”并输出与描述行中找到的蛋白质相对应的特定HSA ID号。
蛋白质序列之一的示例:
hsa:7581 ZNF33A,KOX2,KOX31,KOX5,NF11A,ZNF11,ZNF11A,ZNF33,ZZAPK;锌指蛋白33AMANATRRGSGVEQKSQESVSFKDVTVGFTQEEWQHLDPSQRALYRDVMLENYSNLVSVGYCVHKPEVIFRLQQGEEPWKQEEEFPSQSFPVWTADHLKERSQENQSKHLWEVVFINNEMLTKEQGDVIGIPFNVDVSSFPSRKMFCQCDSCGMSFNTVS ELVIS KINYLG
def read_FASTA(filename):
with open(filename) as file:
return[(part[0].split(' '), part[2].replace('\n',''))
for part in
[entry.partition('\n')
for entry in file.read().split('>')[1:]]]
我正在尝试对文件进行分区,然后将描述/顺序分配给不同的部分。然后,我试图从文件的序列部分中找到特定的主题。
如果您对awk解决方案感兴趣。