有没有办法使用 Python 从 UniProt 中获取蛋白质序列？

Question

我正在寻找一种通过在输入中指定蛋白质 UniProt ID 从 UniProt 检索 FASTA 文件的方法。我的目标是创建一个能够创建 FASTA 文件的 Google Colab，我可以在其中指定 FASTA 名称、我要保存它的目录（在 Google Drive 中）并采用 1xUniProt1、3xUniProt2 格式的 Uniprot ID，其中 3x 是我希望在 FASTA 文件中用“:”分隔的序列的次数。

我在想这样的事情：

输入：

Name = protein_sequences
Proteins = 2xUniprot1, 3xUniprot2, 1xUniprot3
Directory = FASTA_directory

输出：

Name of file = protein_sequences.fasta

FASTA file:

> protein_sequences   sequenceUniprot1:sequenceUniprot1:sequenceUniprot2:sequenceUniprot2:sequenceUniprot2:sequenceUniprot3

我遇到的主要问题是我不确定如何使用 Python 从 UniProt 本身获取序列。我不知道最新最有效的方法是什么。

Answer 1

看起来 UniProt 有一个 REST api，所以我会尝试从那里获取蛋白质信息：https://www.uniprot.org/help/programmatic_access

您需要对此 API 进行 http 调用。为此，我推荐 httpx 库。如果您从未做过类似的事情，他们的文档应该会指导您完成整个过程。

有没有办法使用 Python 从 UniProt 中获取蛋白质序列？

问题描述投票：0回答：1

1个回答

最新问题

有没有办法使用 Python 从 UniProt 中获取蛋白质序列？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1