ChIP-seq 分析:提取序列并生成床文件

问题描述 投票:0回答:1

我是研究生物信息学的Logan。

我通过使用 MACS3 进行峰调用并使用 HOMER 注释峰来分析 ChIP-seq 数据。输出提供每个峰的坐标,例如下面提到的 CM025010.1 区域(开始:40194025,结束:40194493)的坐标。 现在,我的目标是提取每个峰位置周围 ±1kb 窗口内的序列,然后生成一个床文件。 如果您有任何想法或建议,我将不胜感激。谢谢你。

PeakID (cmd=annotatePeaks.pl refGenome.fa)  Chr Start   End Strand  Peak Score  Focus Ratio/Region Size Annotation  Detailed
peakCalling_q_0.01_peak_16  CM025010.1  40194025    40194493    +   311 NA  NA  NA  NA  NA
peakCalling_q_0.01_peak_50  CM025021.1  12981866    12982368    +   279 NA  NA  NA  NA  NA
peakCalling_q_0.01_peak_27  CM025012.1  6509890 6510225 +   266 NA  NA  NA  NA  NA
peakCalling_q_0.01_peak_45  CM025021.1  12517853    12518147    +   246 NA  NA  NA  NA  NA
python parsing annotations sequence bed
1个回答
0
投票

将 pandas 导入为 pd

df = pd.read_csv('original_peaks.bed', sep=' ', header=None, name=['your', 'headers', 'here', 'a', 'b', 'etc'])

窗口大小= 1000

df['开始'] = df['开始'] - 窗口大小 df['结束'] = df['结束'] + window_size

裁剪扩展区域以确保它们不会低于 0

df['开始'] = df['开始'].clip(lower=0)

将扩展区域保存到新的 BED 文件中

df.to_csv('extended_peaks.bed', sep=' ', header=False, index=False)

让我知道这是否有效。 有一个

© www.soinside.com 2019 - 2024. All rights reserved.