awk はファイルを複数のファイルに分割し、別のインデックスファイルに名前を付けます。

Question

mkdir -p cluster &&
awk 'NR==FNR  {map[">"$2]="cluster/"$1".fa"; next}
     /^>/ && NF==1 {close(out); out=map[$0]; next} 
     out != "" {print > out}
' ind.txt file

最初の条件付き操作（NR==FNR）はインデックスファイルを解析してファイル名を生成し、それを配列に保存します。ここで、2番目のファイルのヘッダーはハッシュです。

ヘッダー（/^>/ && NF==1）が見つかった場合に使用する出力ファイル名を定義します。

他の行の場合は、選択したファイル名で印刷します。また、"cluster/.fa"このヘッダーへのマッピングがないとファイルに印刷しないという条件が追加されました。

次のファイルは、サンプル入力でテストするために作成されました。

$ head cluster/*.fa
==> cluster/HG001.fa <==
>1AB2 AA
NWWIEUNJRNIBGOWNGIOWGRBIGBRGRIOWGI
NCIDHFR8EHGBVPIWOBGIGRI
>1AB3 AA
WNIOREHUEBRGOUERGHBERGIORBGREUGEGO
NWFWRUBGREOUEREOBRIOBNERIOBN
>1SC4 AA
WNIOREHUEBRGOUERGHBERGIORBGREUGEGO
NWFWRUBGREOUEREOBRIOBNERIOBN
>2CD5 AA

==> cluster/HG004.fa <==
>6GH3 AA
NBVUIREVOIAWRHRUGRTYUVDNJKDFHUGSEI
FHUIERBLUUIREB
>6GH4 AA
BDFUIGEVUERERHOBERIHBSDLKFJBNIERIH
NFHILRUGAURHG

==> cluster/HG010.fa <==
>2AC6 AA
NFIGEURHGEIROHEGHTUTJGENLJBBEOWRIU
NFIROUHBOERVERUGBERUOVREOIBROEBVUE
NVHIRE
>2ONM AA
BUCIEHBUORBREOBWQVURVELLAJFLHIEBGR
NHEIBVEURIGBVNRIHEOEAJVSJDNHVUGBVR
NEBIBVVBRU
>2POD AA
BUFEWIBOEUWBWOREBRIUBGUERIGBVOSRIP

==> cluster/HG023.fa <==
>7KZL AA
BUIREBVAUREVBREOIRGPNJBFDVERUBVROR

Answer 1

mkdir -p cluster &&
awk 'NR==FNR  {map[">"$2]="cluster/"$1".fa"; next}
     /^>/ && NF==1 {close(out); out=map[$0]; next} 
     out != "" {print > out}
' ind.txt file

最初の条件付き操作（NR==FNR）はインデックスファイルを解析してファイル名を生成し、それを配列に保存します。ここで、2番目のファイルのヘッダーはハッシュです。

ヘッダー（/^>/ && NF==1）が見つかった場合に使用する出力ファイル名を定義します。

他の行の場合は、選択したファイル名で印刷します。また、"cluster/.fa"このヘッダーへのマッピングがないとファイルに印刷しないという条件が追加されました。

次のファイルは、サンプル入力でテストするために作成されました。

$ head cluster/*.fa
==> cluster/HG001.fa <==
>1AB2 AA
NWWIEUNJRNIBGOWNGIOWGRBIGBRGRIOWGI
NCIDHFR8EHGBVPIWOBGIGRI
>1AB3 AA
WNIOREHUEBRGOUERGHBERGIORBGREUGEGO
NWFWRUBGREOUEREOBRIOBNERIOBN
>1SC4 AA
WNIOREHUEBRGOUERGHBERGIORBGREUGEGO
NWFWRUBGREOUEREOBRIOBNERIOBN
>2CD5 AA

==> cluster/HG004.fa <==
>6GH3 AA
NBVUIREVOIAWRHRUGRTYUVDNJKDFHUGSEI
FHUIERBLUUIREB
>6GH4 AA
BDFUIGEVUERERHOBERIHBSDLKFJBNIERIH
NFHILRUGAURHG

==> cluster/HG010.fa <==
>2AC6 AA
NFIGEURHGEIROHEGHTUTJGENLJBBEOWRIU
NFIROUHBOERVERUGBERUOVREOIBROEBVUE
NVHIRE
>2ONM AA
BUCIEHBUORBREOBWQVURVELLAJFLHIEBGR
NHEIBVEURIGBVNRIHEOEAJVSJDNHVUGBVR
NEBIBVVBRU
>2POD AA
BUFEWIBOEUWBWOREBRIUBGUERIGBVOSRIP

==> cluster/HG023.fa <==
>7KZL AA
BUIREBVAUREVBREOIRGPNJBFDVERUBVROR

awk はファイルを複数のファイルに分割し、別のインデックスファイルに名前を付けます。

答え1

関連情報