Python - 使用Numpy，ValueError生成随机dna序列

Question

我想问任何熟悉numpy的人有两个问题。我见过非常相似的问题（和答案），但没有一个使用我想使用的numpy，因为它提供了许多其他选项，我可能希望将来在该代码中使用。我试图在python中使用“random”生成一个随机核苷酸序列列表。因为我想要有不统一的概率，所以我决定使用numpy。但是，我收到错误消息：“ValueError：a必须是1维或整数”。

import numpy as np

def random_dna_sequence(length):
    return ''.join(np.random.choice('ACTG') for _ in range(length))

with open('dna.txt', 'w+') as txtout:
    for _ in range(10):
        dna = random_dna_sequence(100)
        txtout.write(dna)
        txtout.write("\n")

        print (dna)

我是一个完整的磨砂膏，我无法弄清楚多维度在何处或如何发挥作用。我怀疑“.join（）”，但我不确定，也不确定如何更换它。我的另一个问题是如何获得非均匀概率。我试过“np.random.choice（'ACTG'，p = 0.2,0.2,0.3,0.3）”，但它不起作用。

我希望有人可以提供帮助。提前致谢。

问候，伯特

Answer 1

对于问题的第一部分，请将a作为列表传递：

def random_dna_sequence(length):
    return ''.join(np.random.choice(list('ACTG')) for _ in range(length))

或者将您的基础定义为列表或元组：

BASES = ('A', 'C', 'T', 'G')

def random_dna_sequence(length):
    return ''.join(np.random.choice(BASES) for _ in range(length))

第二部分有一个类似的解决方案：将概率作为列表或元组传递：

BASES = ('A', 'C', 'T', 'G')
P = (0.2, 0.2, 0.3, 0.3)

def random_dna_sequence(length):
    return ''.join(np.random.choice(BASES, p=P) for _ in range(length))

Answer 2

就random_dna_sequence函数而言，我遇到了与mhawke类似的解决方案。然而，我正在生成一个与人类基因组1号染色体一样长的序列，并且用我的方法花了差不多一分钟，所以我尝试了mhawke的方法，看看我是否有任何速度提升。相反，它花了大约10倍的时间。因此，对于处理大型序列的任何人，我建议对return语句进行以下更改：

BASES = ('A', 'C', 'G', 'T')
def random_dna_sequence(length):
    return ''.join(np.random.choice(BASES, length))

这基本上让numpy执行循环，它更有效地执行。我希望这有帮助。

Python - 使用Numpy，ValueError生成随机dna序列

问题描述投票：1回答：2

2个回答

最新问题

Python - 使用Numpy，ValueError生成随机dna序列

问题描述 投票：1回答：2

2个回答

最新问题

问题描述投票：1回答：2