我是研究生物信息学的Logan。
我通过使用 MACS3 进行峰调用并使用 HOMER 注释峰来分析 ChIP-seq 数据。输出提供每个峰的坐标,例如下面提到的 CM025010.1 区域(开始:40194025,结束:40194493)的坐标。 现在,我的目标是提取每个峰位置周围 ±1kb 窗口内的序列,然后生成一个床文件。 如果您有任何想法或建议,我将不胜感激。谢谢你。
PeakID (cmd=annotatePeaks.pl refGenome.fa) Chr Start End Strand Peak Score Focus Ratio/Region Size Annotation Detailed
peakCalling_q_0.01_peak_16 CM025010.1 40194025 40194493 + 311 NA NA NA NA NA
peakCalling_q_0.01_peak_50 CM025021.1 12981866 12982368 + 279 NA NA NA NA NA
peakCalling_q_0.01_peak_27 CM025012.1 6509890 6510225 + 266 NA NA NA NA NA
peakCalling_q_0.01_peak_45 CM025021.1 12517853 12518147 + 246 NA NA NA NA NA
将 pandas 导入为 pd
df = pd.read_csv('original_peaks.bed', sep=' ', header=None, name=['your', 'headers', 'here', 'a', 'b', 'etc'])
窗口大小= 1000
df['开始'] = df['开始'] - 窗口大小 df['结束'] = df['结束'] + window_size
df['开始'] = df['开始'].clip(lower=0)
df.to_csv('extended_peaks.bed', sep=' ', header=False, index=False)
让我知道这是否有效。 有一个