我正在学习python编码,并使用一个函数来计算具有不确定字符N或n的DNA序列中的gc百分比(NAAATTTGGGCCCN),这产生了以下问题。有没有办法克服这个问题?
def gc(sequence) :
"This function computes the GC percentage of a dna sequence"
nbases=sequence.count('n')+sequence.count('N')
gc_count=sequence.count('c')+sequence.count('C')+sequence.count('g')+sequence.count('G') #total gc count
gc_percent=float(gc_count)/(len(sequence-nbases)) # TOTAL GC COUNT DIVIDED BY TOTAL LEN OF THE sequence-TOTAL NO. OF N
return 100 * gc_percent
正如@jasonharper在评论中所说,您需要关闭Len()函数。因此将len(sequence-nbases)更改为len(sequence)-nbases。干杯。
len(sequence)-nbases