我正在寻找一种通过在输入中指定蛋白质 UniProt ID 从 UniProt 检索 FASTA 文件的方法。我的目标是创建一个能够创建 FASTA 文件的 Google Colab,我可以在其中指定 FASTA 名称、我要保存它的目录(在 Google Drive 中)并采用 1xUniProt1、3xUniProt2 格式的 Uniprot ID,其中 3x 是我希望在 FASTA 文件中用“:”分隔的序列的次数。
我在想这样的事情:
输入:
Name = protein_sequences
Proteins = 2xUniprot1, 3xUniprot2, 1xUniprot3
Directory = FASTA_directory
输出:
Name of file = protein_sequences.fasta
FASTA file:
> protein_sequences sequenceUniprot1:sequenceUniprot1:sequenceUniprot2:sequenceUniprot2:sequenceUniprot2:sequenceUniprot3
我遇到的主要问题是我不确定如何使用 Python 从 UniProt 本身获取序列。我不知道最新最有效的方法是什么。
看起来 UniProt 有一个 REST api,所以我会尝试从那里获取蛋白质信息:https://www.uniprot.org/help/programmatic_access
您需要对此 API 进行 http 调用。为此,我推荐 httpx 库。如果您从未做过类似的事情,他们的文档应该会指导您完成整个过程。