根据常见子模式对短的同质字符串(DNA)进行聚类并提取类的共识

问题描述 投票:0回答:3

任务:
将大量短 DNA 片段聚类到共享共同子序列模式的类中,并找到每个类的共有序列。

  • 泳池:约。 300 个序列片段
  • 每个片段 8 - 20 个字母
  • 4 个可能的字母:a、g、t、c
  • 每个片段都分为三个区域:
    1. 5个通用字母
    2. 8 个或更多 g 和 c 位置
    3. 5个通用字母
      (作为正则表达式,这将是
      [gcta]{5}[gc]{8,}[gcta]{5}

计划:
执行多重比对(即 withClustalW2)以查找在区域 2 中共享公共序列及其共有序列的类。

问题:

  1. 我的片段是否太短,增加它们的大小是否有帮助?
  2. 区域 2 是否过于同质,只有两种允许的字母类型,无法显示其序列中的模式?
  3. 您可以建议哪些替代方法或工具来完成此任务?

致以诚挚的问候,

西蒙

string cluster-analysis bioinformatics dna-sequence
3个回答
2
投票

是的,考虑到这是人类基因组,并且您本质上只是在寻找特定的 8 聚体,300 个太少了。基因组中有 65,536 个可能的 8 聚体和 3,000,000,000 个独特碱基(假设您正在查看整个基因组,而不仅仅是基因或编码区域)。你会发现 G/C 包含序列 3,000,000,000 / 65,536 * 2^8 =~ 12,000,000 次(而且可能更多,因为与其他东西相比,基因组充满了 CpG 岛)。为什么只选择300?

您不想使用正则表达式来完成此任务。从 1 号染色体开始,寻找第一个 CG 或 GC,然后延伸,直到找到第一个非 G 或 C。然后获取该序列及其上下文并将其保存(在数据库中)。冲洗并重复。

对于这个项目,Clustal 可能有点矫枉过正——但我不知道你的目标,所以我不能确定。如果您只对 GC 区域感兴趣,那么您可以像这样进行一些简单的聚类:

  1. 为每个 G/C 8 聚体创建一个数据库条目(总共 2^8 = 256)。
  2. 获取每个 GC 区域并遍历它以查看它包含哪些 8 聚体。
  3. 用其包含的序列标记每个 GC 区域。

现在,对于每个 8 聚体,您都有数千个包含它的序列。我会将数据分析留给您自己的目标。


1
投票

您的区域二(包含 2 个字母)可能会有点过于相似,增加长度或可变性(例如更多字母)可能会有所帮助。


0
投票

您好,我正在尝试对长度约为 140 bp 的 70 个 DNA 序列进行聚类(GCAT,N)(N 表示未知碱基对),以便将基因型簇与我的表型簇进行比较,以验证表型结果。

您认为采用单热编码和 kmeans 聚类算法来实现这一目标的可行性如何?

我遇到的一些问题是,当前的序列聚类软件(DBSCAN、ALFATCLUST)似乎主要关注长 DNA 序列,这意味着它经常将所有序列放入一组,或者只是将序列全部放在一起.

有什么想法可以解决这个问题吗?

© www.soinside.com 2019 - 2024. All rights reserved.