我有一个DNA序列文件,许多序列像“CCCATGCAGACATAGTG”或“CTCCATGCAGACATAGTG”一样开头,我有一个标签序列“ATGCA”。我想删除所有“ATGCA”以及“CC”和“CTC”。所以最终的产品将是“GACATAGTG”。
有谁知道 R 函数可以做到这一点吗?我在生物串中尝试了trimLRPatterns,但它不起作用,因为它只从末尾修剪,而不是在序列内修剪。如果您有任何解决方案,请告诉我。谢谢。
试试这个:
# dummy DNA
myDNA <- c("CCCATGCAGACATAGTG", "CTCCATGCAGACATAGTG")
# define tag
tag <- "ATGCA"
# remove any character(s) before tag, including tag.
gsub(paste0("^.*", tag), "", myDNA)
# output
# [1] "GACATAGTG" "GACATAGTG"
您可以使用gsub。例如
gsub(“ATGCA”,“”,“CCCATGCAGACATAGTG”)