从文本文件perl中提取多个列

问题描述 投票:0回答:3

我有一个这样的txt文件:

#Genera columnA columnB columnC columnD columnN
x1       1       3       7      0.9      2
x2       5       3       13     7        5
x3       0.1     0.8     7      1        0.4

我想提取X确定的列数,只是假设我们想要columnA,columnC和columnN(这可能是一个包含1,2,20,100或更多列的矩阵)和我要打印的内容OUT(这个例子是只有3但可能更多):

#Genera columnA columnC columnN
    x1   1       7       2
    x2   5       13      5
    x3   0.1     7       0.4

我试过了

#!/usr/bin/perl
use strict;
use warnings;


my @wanted_fields = qw/columnA columnC columnN/;

open DATA, '<', "columns.txt" or die "cant open file\n";


my @datain = <DATA>;
close DATA;

my (@unit_name, $names, @lines, @conteo, @match_names, @columnas);

foreach (@datain){
    if ($_=~ m/^$/g)            {   next;           }
    elsif ($_=~ m/#Genera/g)    {   $names= $_;     }
    else                        {   push @lines, $_ }
}


@unit_name = split (/\t/, $names);
shift @unit_name;
my $count =0;

    foreach (@wanted_fields){
        my $unit_wanted =$_;
        chomp $unit_wanted;
        foreach (@unit_name){
            if ($_ =~ m/$unit_wanted/g){
                $count++;
                 push (@conteo, $count);
                 push (@match_names, $_);
                }
        }
    }


    foreach (@lines){
        chomp;
        @columnas = split (/\t/, $_);
            #push @xx, $columnas[0][3];

    }

我使用计数来确定要提取的列,但在这种情况下,数字2不对应于columnC而3则不对应于columnN ......这是一种选择任何给定列的简单方法,在此case我只想要3但是依赖于案例可以是1,2 5,10,100或更多列。

谢谢

arrays perl extract
3个回答
4
投票

您可以像这样简化并使用hash slices

#!/usr/bin/env perl
use strict;
use warnings;

my @wanted = ( '#Genera' , qw (  columnA columnC columnN ));

open my $input, '<', "file.txt" or die $!;

chomp ( my @header = split ' ', <$input> ); 

print join "\t", @wanted, "\n";
while ( <$input> ) { 
   my %row;
   @row{@header} = split; 
   print join "\t", @row{@wanted}, "\n";
}

哪个输出:

#Genera columnA columnC columnN 
x1  1   7   2   
x2  5   13  5   
x3  0.1 7   0.4 

如果你想要完全匹配你的缩进,那么添加sprintf到混合:

Ef。:

print join "\t", map { sprintf "%8s", $_} @wanted, "\n";
while ( <$input> ) { 
   my %row;
   @row{@header} = split; 
   print join "\t", map { sprintf "%8s", $_} @row{@wanted}, "\n";
}

然后给出:

 #Genera     columnA     columnC     columnN           
      x1           1           7           2           
      x2           5          13           5           
      x3         0.1           7         0.4    

2
投票

这个程序就像你问的那样。它期望输入文件的路径作为命令行上的参数,然后可以使用空的“菱形运算符”<>读取,而无需显式打开它

文件的每个非空行都分为字段,标题行由第一个以哈希符号#开头标识

map的调用将@wanted_fields数组转换为@fields的索引列表,其中列标题出现并将其存储在数组@idx

然后,该数组用于从@fields中为每行输入切片所需的列。字段打印,由制表符分隔

use strict;
use warnings 'all';

use List::Util 'first';

my @wanted_fields = qw/ columnA columnC columnN /;

my @idx;

while ( <> ) {
    next unless /\S/;

    my @fields = split;

    if ( $fields[0] =~ /^#/ ) {

        @idx = ( 0, map {
            my $wanted = $_;
            first { $fields[$_] eq $wanted } 0 .. $#fields;
        } @wanted_fields );
    }

    print join( "\t", @fields[@idx] ), "\n" if @idx;
}

output

#Genera columnA columnC columnN
x1  1   7   2
x2  5   13  5
x3  0.1 7   0.4

2
投票

有一些命令行开关用于这种应用程序:

perl -lnae 'print join "\t", @F[1,3,5]' file.txt

切换-a自动为每一行创建变量@F,按空格分割。所以@F[1,3,5]是元素1,3和5的数组切片。

当然,这样做的缺点是你必须使用列号而不是名称。

© www.soinside.com 2019 - 2024. All rights reserved.