最初の列の各項目の最初の行を抽出するには？

Question 1

awkを使用して見た最初のフィールドを追跡できます。

awk '!seen[$1]++' infile

seenこれは最初のフィールド（）で$1入力されたハッシュを使用します。増分後に値がseen[$1]falseであることを確認してください。つまり、新しい値に遭遇した場合はseen[$1]++0を返し、!seen[$1]++その値がすでにseen[$1]++0より大きい値を返した場合は!seen[$1]++falseになります。

条件がtrueの場合、デフォルトの動作は行全体（{ print $0 }）を印刷することです。これはまさに私たちが望むものなので、スペルを入力する必要はありません。

これは、より詳細で理解しやすい方法で同じことを行います。

awk 'seen[$1] == 0 {
         ++seen[$1]
         print $0
     }' infile

Answer

awkを使用して見た最初のフィールドを追跡できます。

awk '!seen[$1]++' infile

seenこれは最初のフィールド（）で$1入力されたハッシュを使用します。増分後に値がseen[$1]falseであることを確認してください。つまり、新しい値に遭遇した場合はseen[$1]++0を返し、!seen[$1]++その値がすでにseen[$1]++0より大きい値を返した場合は!seen[$1]++falseになります。

条件がtrueの場合、デフォルトの動作は行全体（{ print $0 }）を印刷することです。これはまさに私たちが望むものなので、スペルを入力する必要はありません。

これは、より詳細で理解しやすい方法で同じことを行います。

awk 'seen[$1] == 0 {
         ++seen[$1]
         print $0
     }' infile

Question 2

$ sort -u -s -k1,1 file
Chr01:19967945-19972643 HanXRQChr01g0004001 1   4698    4698    0.0 8676    100.000 locus_tag=HanXRQChr01g0004001 gn=HanXRQChr01g0004001 begin=19967815 end=19972682 len=4868 chr=HanXRQChr01 strand=-1 sp=Helianthus annuus def=Probable protein kinase superfamily protein
Chr01:23001231-23011701 HanXRQChr01g0004391 1   10470   10470   0.0 19335   100.000 locus_tag=HanXRQChr01g0004391 gn=HanXRQChr01g0004391 begin=22999643 end=23012645 len=13003 chr=HanXRQChr01 strand=1 sp=Helianthus annuus def=Putative squalene cyclase; Squalene cyclase, C-terminal; Squalene cyclase, N-terminal
Chr01:38759426-38779934 HanXRQChr01g0005671 1   20472   20472   0.0 37805   100.000 locus_tag=HanXRQChr01g0005671 gn=SPI begin=38759245 end=38779898 len=20654 chr=HanXRQChr01 strand=1 sp=Helianthus annuus def=Probable beige/BEACH domain ;WD domain, G-beta repeat protein

このsortコマンドは、スペースで区切られた最初のフィールドのみをソートキーと見なし、重複キーを削除してソートされたデータを返します（最初に見つかった一意のキーが返されます）。「安定した」ソートアルゴリズム、つまり同じキーを持つレコードの順序を変更しないソートアルゴリズムを使用するように指示します-s（これが必要であると100％確信できないが、使用するのが合理的なようです）。sort

Answer

$ sort -u -s -k1,1 file
Chr01:19967945-19972643 HanXRQChr01g0004001 1   4698    4698    0.0 8676    100.000 locus_tag=HanXRQChr01g0004001 gn=HanXRQChr01g0004001 begin=19967815 end=19972682 len=4868 chr=HanXRQChr01 strand=-1 sp=Helianthus annuus def=Probable protein kinase superfamily protein
Chr01:23001231-23011701 HanXRQChr01g0004391 1   10470   10470   0.0 19335   100.000 locus_tag=HanXRQChr01g0004391 gn=HanXRQChr01g0004391 begin=22999643 end=23012645 len=13003 chr=HanXRQChr01 strand=1 sp=Helianthus annuus def=Putative squalene cyclase; Squalene cyclase, C-terminal; Squalene cyclase, N-terminal
Chr01:38759426-38779934 HanXRQChr01g0005671 1   20472   20472   0.0 37805   100.000 locus_tag=HanXRQChr01g0005671 gn=SPI begin=38759245 end=38779898 len=20654 chr=HanXRQChr01 strand=1 sp=Helianthus annuus def=Probable beige/BEACH domain ;WD domain, G-beta repeat protein

このsortコマンドは、スペースで区切られた最初のフィールドのみをソートキーと見なし、重複キーを削除してソートされたデータを返します（最初に見つかった一意のキーが返されます）。「安定した」ソートアルゴリズム、つまり同じキーを持つレコードの順序を変更しないソートアルゴリズムを使用するように指示します-s（これが必要であると100％確信できないが、使用するのが合理的なようです）。sort

最初の列の各項目の最初の行を抽出するには？

答え1

答え2

関連情報