共通列に基づいて2つのファイルをマージします。

共通列に基づいて2つのファイルをマージします。

2つのファイルがあります。ファイル1は次のようになります。

chr19   4124051 4124250 1
chrX    154458151   154458200   2
chr22   37019451    37019600    3
chr15   74995401    74995550    4
chr12   128823901   128824100   5

ファイル2は次のようになります。

chr19   4124051 4124250 1   CUP
chr15   74995401    74995550    4   CUP
chr12   128823901   128824100   5   CUP
chr12   122752651   122752950   8   CUP
chr13   113297001   113297350   9   CUP

私は次のようなFile3が欲しい。

chr19   4124051 4124250 1 CUP
chrX    154458151   154458200   2
chr22   37019451    37019600    3
chr15   74995401    74995550    4 CUP
chr12   128823901   128824100   5 CUP

File1の列4に基づいて2つのファイルをマージして一致する場合は、File2の列5の値をFile1の最後の列に追加したいと思います。

私はこれに疲れました。

awk 'FNR==NR{a[$4]=$5;next} {print $1,$2,$3,$4,a[$4]}' File2 File1 > file3

しかし、うまくいきません。各行の下に追加の行を作成します。

私もJoinコマンドを試しました。

join -1 4 -2 4 -o'1.1,1.2,1.3,1.4,2.5' File1 File2

空のファイルが生成されます。

どんな提案がありますか?

答え1

ファイルはWindowsで作成されたため、Windowsスタイルの行末(\r\n)があります。削除\rすると、すべてが期待どおりに機能します。

sed -i 's/\r//' File1
sed -i 's/\r//' File2
awk 'FNR==NR{a[$4]=$5;next} {print $1,$2,$3,$4,a[$4]}' File2 File1 > file3

答え2

参加する+タイプ解決策:

join -j4 -a1 -o1.1,1.2,1.3,1.4,2.5 <(sort -k4 File1) <(sort -k4 File2) | column -t

出力:

chr19  4124051    4124250    1  CUP
chrX   154458151  154458200  2
chr22  37019451   37019600   3
chr15  74995401   74995550   4  CUP
chr12  128823901  128824100  5  CUP

  • -j4- 4列から結合

  • -a1- 最初のファイルでペアリングできない行を印刷します。

  • sort -k4 File1- 4番目の列/キーに基づいてファイルを並べ替える(-k4

答え3

perl -F'\s+' -lane '
   s/\r$//; my $i = join $;, @F[0,3];
   @ARGV and $h{$i} = $F[4],next;
   print exists $h{$i} ? s/$/ $h{$i}/r : $_;
' File2 File1

以下を提供します。

chr19   4124051 4124250 1
chrX    154458151   154458200   2
chr22   37019451    37019600    3
chr15   74995401    74995550    4 CUP
chr12   128823901   128824100   5 CUP

関連情報