任务:
将大量短 DNA 片段聚类到共享共同子序列模式的类中,并找到每个类的共有序列。
[gcta]{5}[gc]{8,}[gcta]{5}
)计划:
执行多重比对(即 withClustalW2)以查找在区域 2 中共享公共序列及其共有序列的类。
问题:
致以诚挚的问候,
西蒙
是的,考虑到这是人类基因组,并且您本质上只是在寻找特定的 8 聚体,300 个太少了。基因组中有 65,536 个可能的 8 聚体和 3,000,000,000 个独特碱基(假设您正在查看整个基因组,而不仅仅是基因或编码区域)。你会发现 G/C 包含序列 3,000,000,000 / 65,536 * 2^8 =~ 12,000,000 次(而且可能更多,因为与其他东西相比,基因组充满了 CpG 岛)。为什么只选择300?
您不想使用正则表达式来完成此任务。从 1 号染色体开始,寻找第一个 CG 或 GC,然后延伸,直到找到第一个非 G 或 C。然后获取该序列及其上下文并将其保存(在数据库中)。冲洗并重复。
对于这个项目,Clustal 可能有点矫枉过正——但我不知道你的目标,所以我不能确定。如果您只对 GC 区域感兴趣,那么您可以像这样进行一些简单的聚类:
现在,对于每个 8 聚体,您都有数千个包含它的序列。我会将数据分析留给您自己的目标。
您的区域二(包含 2 个字母)可能会有点过于相似,增加长度或可变性(例如更多字母)可能会有所帮助。
您好,我正在尝试对长度约为 140 bp 的 70 个 DNA 序列进行聚类(GCAT,N)(N 表示未知碱基对),以便将基因型簇与我的表型簇进行比较,以验证表型结果。
您认为采用单热编码和 kmeans 聚类算法来实现这一目标的可行性如何?
我遇到的一些问题是,当前的序列聚类软件(DBSCAN、ALFATCLUST)似乎主要关注长 DNA 序列,这意味着它经常将所有序列放入一组,或者只是将序列全部放在一起.
有什么想法可以解决这个问题吗?