あるフィールドに基づいて一意の行をソートし、別のフィールドに基づいて出力する行を決定します。

Question 1

出力するデータがメモリに入るほど小さい場合

awk '
    biggest[$3] < $5 { biggest[$3]=$5 ; saved[$3]=$0 }
    END { for (i in saved) { print saved[i] }}'

通常、この方法がより高速で保存する必要があるかどうかを判断するときは、各行を一度見てください。メモリ要件は出力されるデータによって異なりますので、非常に反復的な入力は非常に大きくなる可能性があります。

これは、行ごとに複数の比較が必要なソートソリューションとは対照的です。ソートベースのソリューションは、速度が遅くても大きすぎてメモリに収まらない出力を処理します。

Answer

出力するデータがメモリに入るほど小さい場合

awk '
    biggest[$3] < $5 { biggest[$3]=$5 ; saved[$3]=$0 }
    END { for (i in saved) { print saved[i] }}'

通常、この方法がより高速で保存する必要があるかどうかを判断するときは、各行を一度見てください。メモリ要件は出力されるデータによって異なりますので、非常に反復的な入力は非常に大きくなる可能性があります。

これは、行ごとに複数の比較が必要なソートソリューションとは対照的です。ソートベースのソリューションは、速度が遅くても大きすぎてメモリに収まらない出力を処理します。

Question 2

2番目と3番目のフィールドに基づいてソートし、awk最大値を維持するために渡します。

$ sort -k 3,3nr -k 5,5rn input | awk '!a[$3]++' 
SMURF1  7   99143726    GACAGATTGG  74
CSNK1D  17  82251379    AATTTAGCCA  68
UBE2Z   17  48910880    CTAAGGATCC  48
AC003665.1  17  47813266    AGCAGGCGCA  83
RIOK3   18  23453502    GCAAGACTTT  69

これは、ファイルが一度だけソートされ、ファイル全体をメモリに保存する必要がないという利点があります。しかし、私は望むIcarusのawkメソッドファイルを一度だけ読み取ればよいので、より高速です。

Answer

2番目と3番目のフィールドに基づいてソートし、awk最大値を維持するために渡します。

$ sort -k 3,3nr -k 5,5rn input | awk '!a[$3]++' 
SMURF1  7   99143726    GACAGATTGG  74
CSNK1D  17  82251379    AATTTAGCCA  68
UBE2Z   17  48910880    CTAAGGATCC  48
AC003665.1  17  47813266    AGCAGGCGCA  83
RIOK3   18  23453502    GCAAGACTTT  69

これは、ファイルが一度だけソートされ、ファイル全体をメモリに保存する必要がないという利点があります。しかし、私は望むIcarusのawkメソッドファイルを一度だけ読み取ればよいので、より高速です。

あるフィールドに基づいて一意の行をソートし、別のフィールドに基づいて出力する行を決定します。

答え1

答え2

関連情報