根据常见子模式对短的同质字符串（DNA）进行聚类并提取类的共识

Question

任务：
将大量短 DNA 片段聚类到共享共同子序列模式的类中，并找到每个类的共有序列。

泳池：约。 300 个序列片段
每个片段 8 - 20 个字母
4 个可能的字母：a、g、t、c
每个片段都分为三个区域：
1. 5个通用字母
2. 8 个或更多 g 和 c 位置
3. 5个通用字母
  （作为正则表达式，这将是
```
[gcta]{5}[gc]{8,}[gcta]{5}
```
  ）

计划：
执行多重比对（即 withClustalW2）以查找在区域 2 中共享公共序列及其共有序列的类。

问题：

我的片段是否太短，增加它们的大小是否有帮助？
区域 2 是否过于同质，只有两种允许的字母类型，无法显示其序列中的模式？
您可以建议哪些替代方法或工具来完成此任务？

致以诚挚的问候，

西蒙

Answer 1

是的，考虑到这是人类基因组，并且您本质上只是在寻找特定的 8 聚体，300 个太少了。基因组中有 65,536 个可能的 8 聚体和 3,000,000,000 个独特碱基（假设您正在查看整个基因组，而不仅仅是基因或编码区域）。你会发现 G/C 包含序列 3,000,000,000 / 65,536 * 2^8 =~ 12,000,000 次（而且可能更多，因为与其他东西相比，基因组充满了 CpG 岛）。为什么只选择300？

您不想使用正则表达式来完成此任务。从 1 号染色体开始，寻找第一个 CG 或 GC，然后延伸，直到找到第一个非 G 或 C。然后获取该序列及其上下文并将其保存（在数据库中）。冲洗并重复。

对于这个项目，Clustal 可能有点矫枉过正——但我不知道你的目标，所以我不能确定。如果您只对 GC 区域感兴趣，那么您可以像这样进行一些简单的聚类：

为每个 G/C 8 聚体创建一个数据库条目（总共 2^8 = 256）。
获取每个 GC 区域并遍历它以查看它包含哪些 8 聚体。
用其包含的序列标记每个 GC 区域。

现在，对于每个 8 聚体，您都有数千个包含它的序列。我会将数据分析留给您自己的目标。

Answer 2

您的区域二（包含 2 个字母）可能会有点过于相似，增加长度或可变性（例如更多字母）可能会有所帮助。

Answer 3

您好，我正在尝试对长度约为 140 bp 的 70 个 DNA 序列进行聚类（GCAT，N）（N 表示未知碱基对），以便将基因型簇与我的表型簇进行比较，以验证表型结果。

您认为采用单热编码和 kmeans 聚类算法来实现这一目标的可行性如何？

我遇到的一些问题是，当前的序列聚类软件（DBSCAN、ALFATCLUST）似乎主要关注长 DNA 序列，这意味着它经常将所有序列放入一组，或者只是将序列全部放在一起.

有什么想法可以解决这个问题吗？

根据常见子模式对短的同质字符串（DNA）进行聚类并提取类的共识

问题描述投票：0回答：3

3个回答

最新问题

根据常见子模式对短的同质字符串（DNA）进行聚类并提取类的共识

问题描述 投票：0回答：3

3个回答

最新问题

问题描述投票：0回答：3