awk: 最初の行の部分文字列に一致するタブ区切り列の抽出

Question 1

Awkの代わりにカンマで区切られた列名のリストを作成し、それをstrings.txtsリストとして使用するにはどうすればよいですか？namedcolcsvtool

$ csvtool -t TAB -u TAB namedcol "$(paste -sd, < strings.txt)" columns.txt
rs2438689   rs9877702046
0   0
1   2
0   2
... ...

またはcsvcut/csvformatPythonに基づく同様のものcsvkit：

$ csvcut -tc "$(paste -sd, < strings.txt)" columns.txt | csvformat -T
rs2438689   rs9877702046
0   0
1   2
0   2
... ...

Answer

Awkの代わりにカンマで区切られた列名のリストを作成し、それをstrings.txtsリストとして使用するにはどうすればよいですか？namedcolcsvtool

$ csvtool -t TAB -u TAB namedcol "$(paste -sd, < strings.txt)" columns.txt
rs2438689   rs9877702046
0   0
1   2
0   2
... ...

またはcsvcut/csvformatPythonに基づく同様のものcsvkit：

$ csvcut -tc "$(paste -sd, < strings.txt)" columns.txt | csvformat -T
rs2438689   rs9877702046
0   0
1   2
0   2
... ...

Question 2

そしてperl

$ perl -F'\t' -lane 'if(!$#ARGV){ $h{$_}=1 }
                     else{ @i = grep { $h{$F[$_]} == 1 } 0..$#F if !$c++;
                           print join "\t", @F[@i]}' strings.txt columns.txt
rs2438689   rs9877702046
0   0
1   2
0   2

if(!$#ARGV){ $h{$_}=1 }最初の入力ファイルの場合、行の内容でキー付きハッシュを作成します。
@i = grep { $h{$F[$_]} == 1 } 0..$#F if !$c++2番目のファイルの最初の行に対して、ハッシュ内の一致するすべての列名のインデックス付きリストを作成します。
print join "\t", @F[@i]一致する熱印刷

Answer

そしてperl

$ perl -F'\t' -lane 'if(!$#ARGV){ $h{$_}=1 }
                     else{ @i = grep { $h{$F[$_]} == 1 } 0..$#F if !$c++;
                           print join "\t", @F[@i]}' strings.txt columns.txt
rs2438689   rs9877702046
0   0
1   2
0   2

if(!$#ARGV){ $h{$_}=1 }最初の入力ファイルの場合、行の内容でキー付きハッシュを作成します。
@i = grep { $h{$F[$_]} == 1 } 0..$#F if !$c++2番目のファイルの最初の行に対して、ハッシュ内の一致するすべての列名のインデックス付きリストを作成します。
print join "\t", @F[@i]一致する熱印刷

Question 3

改訂する以前の問題に対する私の解決策:

awk -F '\t' -f script.awk strings.txt columns.txt

script.awkどこ

BEGIN { OFS = FS }

FNR == NR {
    columns[$1] = 1
    next
}

FNR == 1 {
    for (i = 1; i <= NF; ++i)
        if ($i in columns)
            keep[i] = 1
}

{
    nf = split($0, fields, FS)
    $0 = ""
    j = 0

    for (i = 1; i <= nf; ++i)
        if (i in keep)
            $(++j) = fields[i]

    print
}

ここでブロックは、FNR == NRコマンドライン（）strings.txtにリストされている最初のファイルを読み取ったときにのみ実行されます。columnsキーを列名として使用して配列を入力します。残りのコードは次のとおりです。ややFNR == 1現在の列が（ブロック内に）保持する列であることを確認することを除いて、以前の解決策と同じです。

解決するコメントの質問:

常に最初の6列をコピーして列見出しを切り取るに_は

FNR == 1 {
    for (i = 1; i <= NF; ++i)
        if ($i in columns)
            keep[i] = 1
}

入力する

FNR == 1 {
    for (i = 1; i <= NF; ++i) {
        sub("_.*", "", $i)
        if (i <= 6 || $i in columns)
            keep[i] = 1
    }
}

Answer