使用python查找fasta文件中包含“ ELVIS”的基因数量；还输出所有具有ELVIS基序的基因的HSA ID号

Question

我需要在一个包含100多个蛋白质序列的fasta文件中搜索主题“ ELVIS”。我需要计算有多少蛋白质具有“ ELVIS”并输出与描述行中找到的蛋白质相对应的特定HSA ID号。

蛋白质序列之一的示例：

hsa：7581 ZNF33A，KOX2，KOX31，KOX5，NF11A，ZNF11，ZNF11A，ZNF33，ZZAPK；锌指蛋白33AMANATRRGSGVEQKSQESVSFKDVTVGFTQEEWQHLDPSQRALYRDVMLENYSNLVSVGYCVHKPEVIFRLQQGEEPWKQEEEFPSQSFPVWTADHLKERSQENQSKHLWEVVFINNEMLTKEQGDVIGIPFNVDVSSFPSRKMFCQCDSCGMSFNTVS ELVIS KINYLG

def read_FASTA(filename):
    with open(filename) as file:
        return[(part[0].split(' '), part[2].replace('\n',''))
               for part in
               [entry.partition('\n')
                for entry in file.read().split('>')[1:]]]

我正在尝试对文件进行分区，然后将描述/顺序分配给不同的部分。然后，我试图从文件的序列部分中找到特定的主题。

Answer 1

0
投票

如果您对awk解决方案感兴趣。

使用python查找fasta文件中包含“ ELVIS”的基因数量；还输出所有具有ELVIS基序的基因的HSA ID号

问题描述投票：0回答：1

1个回答

最新问题

使用python查找fasta文件中包含“ ELVIS”的基因数量；还输出所有具有ELVIS基序的基因的HSA ID号

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1