仅将此标记用于与生物信息学相关的编程相关问题。其他问题不属于此处,但可能是https://bioinformatics.stackexchange.com/上的主题。有关更多信息,请参阅标记维基。
所以我给我的班级布置了这个作业,它是这样的: 创建一个能够读取 FASTQ 格式文件的程序。 存储每个读数的碱基和各自的质量值(如......
将 Fastq 文件直接读取到 Pandas Dataframe 中
我正在尝试将 Fastq 文件直接读入 pandas 数据帧,类似于下面的链接: 将 FASTQ 文件读入 Spark 数据帧 我到处搜索,但找不到可行的选择。 电流...
我想获得肽的所有DNA编码:肽是氨基酸序列,即氨基酸M和氨基酸Q可以形成肽MQ或QM。 DNA编码意味着有一个DNA代码(称为...
我有一个 .config 文件,其中包含各种工具的目录路径。我想隔离单个文件路径,例如:/mount1/nextflow_dir/,对于其他工具,我想添加一些内容
我是一名医生(所以根本没有计算机科学背景),开始涉足大数据集的生物信息学分析,并且过去在我的私人 Windows 笔记本电脑上使用过 R,而没有...
如何使用 bash 替换多行 FASTA 文件中的特定字符串模式?
我有一个大型多行 FASTA 文件,如下所示: >NWQ47741.1 CLTR1 蛋白,部分 [Melospiza_melodia] 脊椎动物 CLSQGTMTALSPNLSCHNPSIDDFRNSVYSTLYSMISIMGFVGNGVVLYVLIRTYRQKTA
我有一个表达数据的数据框,其中基因是行,列是样本。我还有一个数据框,其中包含表达式数据框中每个样本的元数据。实际上我的 expr 数据...
我有一个表达数据的数据框,其中基因是行,列是样本。我还有一个数据框,其中包含表达式数据框中每个样本的元数据。 表达式 <- data.frame(sam...
我目前正在尝试按照此工作流程下载制作 COInr 数据库的所有要求; https://mkcoinr.readthedocs.io/en/latest/content/overview.html。它需要一些不同的...
我有两个非交错 fasta 格式的序列: >序列1 啊啊啊啊啊 >序列2 TTTTTTTTTT 我想按一定比例交换两个序列的部分。比例为0.5(...
Pandas groupby:使用其他列中的数据来创建组(基因组区间)
作为更大数据集的一部分,我有一个组织如下的 DataFrame: 染色体臂起始结束比_中位数 5 5.5 96100001 96150000 -0.582 5 5.5 96150001 96200000 ...
如何创建氨基酸注意力分数的热图可视化,每行显示 30 个氨基酸和注意力分数?
我想可视化我的模型对氨基酸序列的注意力得分。 像这个 将 numpy 导入为 np 将 matplotlib.pyplot 导入为 plt 氨基酸 = ['M', 'L', 'I', 'V', 'N', 'Y', 'L', 'G',...
我正在从事生物项目。我有 .pdb(蛋白质数据库)文件,其中包含有关分子的信息。 我想找出 .pdb 文件中分子的以下内容: 分子质量。 哈...
所以我在 awk/bash 中编写代码。我有两个文件,第一个文件的格式如下: chr1_2376428_A_T chr1_5465765_T_A chr1_8958392_C_G .... chrM_237426_C_G 该文件涵盖所有铬...
我有一个包含蛋白质和一个配体的pdb。我不喜欢配体的氢的命名方式(1H2,2H2,1H3,2H3,...),我想要类似 H1,H2,H3,H4,... 我写了
我正在尝试使用 gseapy richr 对如下所示的基因名称列表运行富集分析: 0 RAB4B 1 虎 2 RNF44 3 DNAH3 4 RPL23A 5 ARL8B 6 卡路里...
在Rstudio中使用ape包的ace函数时出错:object "phy" is not of class "phylo"
我正在尝试运行 ASR 分析,并尝试将二进制数据组合到先前生成的树的叶子中。从 ape 包运行 ace 函数时,我不断收到相同的错误:
我正在将 DNA 翻译为蛋白质,或者基本上,引用列表中的值表,然后在满足某些条件时调用该列表中的值。不过我现在预计会使用...
尝试以下方法使用bioawk替换没有键值对的fasta标头 对于 $(ls *.faa) 中的 infile 做 前缀=$(基本名称$infile .faa) bioawk -c fastx '{ print ">&q...