FASTA是用于蛋白质和核酸的序列比对的软件包。 FASTA也是这些程序用来表示肽或核苷酸序列的文件格式的名称。该格式是生物信息学中事实上的标准。
QIIME 请求此(此处)有关其作为输入接收的 fasta 文件: 该文件是 FASTA 文件,序列采用单行格式。也就是说,序列不会被分解成多个 li...
我正在尝试提取 fasta 文件中标头后面的前 n 个序列。标头通常使用“>”字符定义,这样对应于 sp 的序列块...
如何创建 BLAST 本地蛋白质数据库而不出现错误“BLAST 数据库错误:数据库内存映射文件错误”
我正在尝试在本地数据库上使用 psi-blast 并不断收到错误。 我认为我收到的错误可能是由于未正确创建blast数据库的结果,因为当我...
我有一个目录,其中包含多个 fasta 文件,名称如下: BC-1_bin_1_genes.faa BC-1_bin_2_genes.faa BC-1_bin_3_genes.faa BC-1_bin_4_genes.faa 等(约200个单独文件) 法斯塔头......
我尝试使用 Awk 和 sed 命令在 Bash 中进行编码,但没有获得所需的输出。我有一个包含以下内容的文本文件: >AC201869.46386.47908 虫王
我尝试使用 AWK 和 SED 命令在 BASH 中进行编码,但没有获得所需的输出,请帮助我使用简单的代码来解决我的问题。看我有一个包含这样内容的文本文件。 >AC201869.46386.47...
使用 FastAPI 的 Pytest 不会在文件测试之间重置数据库
我有多个 Pytest 文件。问题是每个文件运行完毕后数据库数据没有被清除。 DB_URL =“sqlite:///:内存:” 引擎 = create_engine(DB_URL,
使用awk通过文件中的ID从multifasta文件中提取序列
我想从 multifasta 文件中提取与单独的 ID 列表给出的 ID 相匹配的序列。 FASTA 文件 seq.fasta: >7P58X:01332:11636 TTCAGCAAGCCGAGTCCTGCGTCGTTACTTCGCTT
我正在寻找一个好的库来使用 R 提取 genbank (gbk) 文件的信息。 这是gbk文件的常见结构 基因补体(1..1002) /基因=“bla...
我有一个fasta文件: >1 AGGGTCACGTAATGCTGATCCAGTCTTGTTTTTTTTTCATTCATGTTCCCGCTCTTGCT TTGATTCCGACTTCTAACGTTTAACCTGTGATCAGACGTTTCACTGCTCCATATTTTACG TGTGCCTGCCGGTCATCTTGGGTAGAGTTAGCATATCC >2
Perl:匹配数组元素,然后将上一个(后面 5 个索引)数组元素复制到新数组
本质上我想做的是搜索一个大文本文件来识别每个显示“未找到匹配项”的元素,并将匹配的标识符复制到新列表中。我对第一个很好...
如何使用 Bash 脚本查找 FASTA 文件的 GC 内容?
我想使用 Bash 脚本从 FASTA 格式文件中查找 GC 内容。 GC含量基本上是((G+C)的数量)/((A+T+G+C)的数量)。 我正在尝试使用 wc 命令。 ...
我有一个 DNA 序列的小 fasta 文件,如下所示: >NM_000016 700 200 234 ACATATTGGAGGCCGAAACAATGAGGCGTGATCAACTCAGTATATCAC >NM_000775 700 124 236
使用条件语句将 Fasta 名称更改为标识符值;由于长度不等导致的错误
我对 R 比较陌生,想将它用于群体遗传学课程。我已经成功编写了一个脚本,通过登录号从 GenBank 中提取 Fasta 文件,但是 DNA 的名称
我正在尝试使用 grep sed 或 awk 来解析文件的单独行的字符之间[重复]
尝试在本示例文本中解析 behen 和 > 的下一个实例: >S_behen_BOx6592|contig_6484&contig_7580 TCCGAACCATAGCAAACATCGAAAGGAGTTTCGAAGGAAGTTTCCTGAGATGTTATAAAAG
我尝试使用 grep sed 或 awk 来解析文件的单独行的字符之间
尝试在本示例文本中解析 behen 和 > 的下一个实例: >S_behen_BOx6592|contig_6484&contig_7580 TCCGAACCATAGCAAACATCGAAAGGAGTTTCGAAGGAAGTTTCCTGAGATGTTATAAAAG
如何从 Perl 中的 stdin 和文件进行透明的 gzip 解压缩?
我编写了一些用于处理 FASTA/FASTQ 文件的脚本(例如 fastx-length.pl),但希望使它们更通用并接受压缩和未压缩文件作为命令行
我有一个 for 循环可以满足我的需要,但是,我想知道该循环是否可以进一步优化。 我有一本字典,其中每个键都有一个与其关联的值列表。价值清单...
我有一个像这样的fasta文件: >IGHV6-22_F GTTTGAATGGCCAGGC... >IGHV1-21_F GTGCAGATGGTCAGAC... >IGHV3-20_F GTGTGAAGGGTGAACA... >IGHV3-18_F 还有一个像这样的 tsv 文件: df.allVHitsWith...
我正在使用 Bash(对我来说非常陌生)。我有2个源文件。 其中之一(名称:clusters.txt)如下所示: 集群 10:WP_1.2 WP_1.1 WP_1.4 ...... 集群 15:WP_2.1 WP_1.4 WP_1.3 ...... 在sh...