次の一致の前に、一致とすべての項目を抽出します。各一致に対してこれを行います。

Question 1

awkではこれを簡単に行うことができます。

awk '{ if(/^>/){name=$0; sub(/^>/,"", name);}{print >> name".fa"}}' file.fa

これは入力ファイルのすべての行を繰り返し、最初の文字がこの場合は行をとして>保存します。次に、ファイル名にその内容を望まないので、から内容を削除nameします。最後に、各行は現在のシーケンスの名前が何であれ、whereというファイルに追加されます。>namename.faname

N行より長いシーケンスのみを印刷するには、次のものを使用できます。

awk -v min=4 '{ 
               if(/^>/){ 
                    if(num >= min){
                        print seq >> name".fa"
                    } 
                    name=$0; 
                    sub(/^>/,"", name); 
                    seq=$0; 
                    num=0
                }
                else{
                    seq = seq"\n"$0; 
                    num++
                }
               }
               END{
                 if(num >= min){
                    print seq >> name".fa"
                 }
               }' file.fa

基本原則として、テキスト処理にシェルループを使用しないでください。ゆっくりと這い、エラーが発生しやすい。

Answer

awkではこれを簡単に行うことができます。

awk '{ if(/^>/){name=$0; sub(/^>/,"", name);}{print >> name".fa"}}' file.fa

これは入力ファイルのすべての行を繰り返し、最初の文字がこの場合は行をとして>保存します。次に、ファイル名にその内容を望まないので、から内容を削除nameします。最後に、各行は現在のシーケンスの名前が何であれ、whereというファイルに追加されます。>namename.faname

N行より長いシーケンスのみを印刷するには、次のものを使用できます。

awk -v min=4 '{ 
               if(/^>/){ 
                    if(num >= min){
                        print seq >> name".fa"
                    } 
                    name=$0; 
                    sub(/^>/,"", name); 
                    seq=$0; 
                    num=0
                }
                else{
                    seq = seq"\n"$0; 
                    num++
                }
               }
               END{
                 if(num >= min){
                    print seq >> name".fa"
                 }
               }' file.fa

基本原則として、テキスト処理にシェルループを使用しないでください。ゆっくりと這い、エラーが発生しやすい。

Question 2

（あなたの意見で提案されているように）あなたのアプリケーションにもっと適したバイオインフォマティクスツールがあるかもしれませんが、あなたはそれを使って行うことができますcsplit。

csplit -sz file '/^>/' '{*}'

与えられた

$ head xx*
==> xx00 <==
>Number_one
[some thousands lines]

==> xx01 <==
>Number_two
[some other thousands lines, less than the latter]

==> xx02 <==
>Number_three
[Some other hundreds lines]

出力ファイル名の番号付けと書式設定のオプションについては、マニュアルページ（man csplit）を参照してください。

Answer

（あなたの意見で提案されているように）あなたのアプリケーションにもっと適したバイオインフォマティクスツールがあるかもしれませんが、あなたはそれを使って行うことができますcsplit。

csplit -sz file '/^>/' '{*}'

与えられた

$ head xx*
==> xx00 <==
>Number_one
[some thousands lines]

==> xx01 <==
>Number_two
[some other thousands lines, less than the latter]

==> xx02 <==
>Number_three
[Some other hundreds lines]

出力ファイル名の番号付けと書式設定のオプションについては、マニュアルページ（man csplit）を参照してください。

次の一致の前に、一致とすべての項目を抽出します。各一致に対してこれを行います。

答え1

答え2

関連情報