用于构建蛋白质组学数据的Bash代码

Question

我需要有关重构数据集的帮助，以便我可以执行下游分析。我目前正处理蛋白质组学数据，并希望进行比较分析。问题是蛋白质ID。通常，一种蛋白质可以具有多于1个id并且它们被“;”分开。我需要用不同的蛋白质ID打印相同蛋白质的整个系列。例如：-

输入文件：

        tom dick harry  jan
a;b;c   1     2    3     4
d;e     4     5    7     3

理想输出：

    tom dick harry jan
a   1   2   3   4
b   1   2   3   4
c   1   2   3   4
d   4   5   7   3
e   4   5   7   3

非常感谢提前

Answer 1

$ awk 'NR==1{$0="key "$0} {split($1,a,/;/); for (i=1; i in a; i++) { $1=a[i]; print } }' file | column -t
key  tom  dick  harry  jan
a    1    2     3      4
b    1    2     3      4
c    1    2     3      4
d    4    5     7      3
e    4    5     7      3

如果你不喜欢它，你可以从输出中删除单词“key”，但是恕我直言的有一些列和一些没有标题是一个非常糟糕的主意 - 只是让任何进一步的处理更加困难。

Answer 2

#!/bin/bash

read header
printf "%4s %s\n" "" "$header"

while true
do
  read ids values
  for id in $(tr ';' ' ' <<< "$ids")
  do
    printf "%-4s %s\n" "$id" "$values"
  done
done

这读取标题和打印（只是略有不同的格式），然后它读取每一行并打印这些行中的每一行，在行的开头给出的每个id一行。为了找到ids，ids字符串被分割为分号（;）。

用于构建蛋白质组学数据的Bash代码

问题描述投票：-3回答：2

2个回答

最新问题

用于构建蛋白质组学数据的Bash代码

问题描述 投票：-3回答：2

2个回答

最新问题

问题描述投票：-3回答：2