次の入力ファイルがあります。
入力ファイルの例:
a|a1|a2|a3|a4|a5|...|a29|$2342
a|a1|a2|a3|a4|a5|...|a29|$2343
a|a1|a2|a3|a4|a5|...|a29|$2344
a|a1|a2|a3|a4|a5|...|a29|$2345
b|b1|b2|b3|b4|b5|...|b29|$100
c|c1|c2|c3|c4|c5|...|c29|$12
他のファイルのデータは次のとおりです。
a|a1|a2|a3|a4|a5|...|a29|$2342|123|1.0|21.0
b|b1|b2|b3|b4|b5|...|b29|$100|12567|16.0|31.0
c|c1|c2|c3|c4|c5|...|c29|$12|6213|1.9|1.1
以下に説明するように、これら2つのファイルを使用して最終出力を取得しようとしています。
a|a1|a2|a3|a4|a5|...|a29|$2342|123|1.0|21.0
a|a1|a2|a3|a4|a5|...|a29|$2343|123|1.0|21.0
a|a1|a2|a3|a4|a5|...|a29|$2344|123|1.0|21.0
a|a1|a2|a3|a4|a5|...|a29|$2345|123|1.0|21.0
b|b1|b2|b3|b4|b5|...|b29|$100|12567|16.0|31.0
c|c1|c2|c3|c4|c5|...|c29|$12|6213|1.9|1.1
以前の列の値を比較して#
同じことが確認されたら、2番目のファイルの値を1番目のファイルに追加できると思いました。
答え1
これは一般的な作業ですawk
。考えられる解決策は次のとおりです。
awk '
NR==FNR {
match($0,/.*\$/)
pref = substr($0,RSTART,RLENGTH)
rest = substr($0,RSTART+RLENGTH)
suff = substr(rest, index(rest,"|"))
suffixes[pref] = suff
next
}
{
match($0,/.*\$/)
prefix = substr($0,RSTART,RLENGTH)
match($0,/.*\$[0-9]+|/)
data = substr($0,RSTART,RLENGTH)
if (prefix in suffixes)
print data suffixes[prefix]
}
' file2 file1
file1
あなたの質問には「input file」というファイルはどこにあり、あなたの質問にはfile2
「another file」というファイルはどこにありますか? (リスト内のファイルの順序を参照してください。)
説明する:
最初のコマンドブロックは、最初のファイルを読み取ると実行されますfile2
。これはNR==FNR
、最初のファイルを読み取る場合にのみ真の条件によって達成されます。 2番目のコマンドブロックは2番目のファイルに対してのみ実行されます(最初のコマンドブロックのコマンドfile1
のため)。next
最初のブロックはプレフィックスpref
とサフィックスを抽出しsuff
、suffixes[pref] = suff
各プレフィックスに対応するサフィックスを記憶します。これは、2番目のブロックのデータを参照するために必要です。 2番目のブロックでは、同様のコマンドが実際に実行されてプレフィックスを抽出し、それを使用して保存されたサフィックスから正しいサフィックスを取得します。 1つの違いがあります。シンボルの後の数字も#
新しいプレフィックスデータの一部として保持する必要があるため、配列match
にアクセスするために必要なプレフィックスsuffixes
と結果データの一部になるために必要なプレフィックスを区別する2番目のタスクがあります。