awkのサブストリング置換

Question 1

コメントで述べたように、AWKおよびsed呼び出しのチェーン全体を単一のAWKプログラムとして実装することが可能でなければなりません。

要求された質問に答え、3番目のフィールドの最後の文字が「1」であることを確認するには、次のようにします。

$3 ~ /1$/

代わりsubstrに、あなたの場合

$3 ~ /1$/ {print $3$2,$1}

Answer

コメントで述べたように、AWKおよびsed呼び出しのチェーン全体を単一のAWKプログラムとして実装することが可能でなければなりません。

要求された質問に答え、3番目のフィールドの最後の文字が「1」であることを確認するには、次のようにします。

$3 ~ /1$/

代わりsubstrに、あなたの場合

$3 ~ /1$/ {print $3$2,$1}

Question 2

私はそれを知っています

$3 == "CDS" && $1 ~ /1$/ {
        split($9,A,";") ;
        B=substr(A[4],6) ;
        V[B $7] = $1 ;
}
END {
        for (u in V) {
                print u  >> V[u] ;
                close(V[u]) ;
        }
}

結果は17042ファイルです。

$3 == "CDS" && $1 ~ /1$/awk '$3=="CDS"'そして awk 'substr($3,11,11)==1
split($9,A,";") ;sed 's/;/\t/g'そして awk '{print $1,$7,$12}'
B=substr(A[4],6) ;~のためsed 's/Name=//g'
V[B $7] = $1 ;sortそしてuniq

スクリプトを実行するには、コードを挿入してfilter.awkから

awk -f filter.awk file_to_parse

Answer

私はそれを知っています

$3 == "CDS" && $1 ~ /1$/ {
        split($9,A,";") ;
        B=substr(A[4],6) ;
        V[B $7] = $1 ;
}
END {
        for (u in V) {
                print u  >> V[u] ;
                close(V[u]) ;
        }
}

結果は17042ファイルです。

$3 == "CDS" && $1 ~ /1$/awk '$3=="CDS"'そして awk 'substr($3,11,11)==1
split($9,A,";") ;sed 's/;/\t/g'そして awk '{print $1,$7,$12}'
B=substr(A[4],6) ;~のためsed 's/Name=//g'
V[B $7] = $1 ;sortそしてuniq

スクリプトを実行するには、コードを挿入してfilter.awkから

awk -f filter.awk file_to_parse

Question 3

gawkと変数を使用して、tgt選択するフィールドの名前を定義します。

awk -F"[\t;:,=]" -v tgt="Genbank" '$3=="CDS"{
   for (f=4; f<=NF; f++) if ($f ~ tgt) {
     if ( $(f+1) ~ /\.1$/ ) out[$(f+1)$7" "$1]=$1".lst"}}
   END{PROCINFO["sorted_in"]="@ind_num_asc"; 
      for (o in out) print o > out[o]}' GCF_000393655.1_Nsyl_genomic.gff

tail *.lst 

==> NW_009592652.1.lst <==
XP_009779696.1- NW_009592652.1

==> NW_009592685.1.lst <==
XP_009779697.1+ NW_009592685.1
XP_009779699.1- NW_009592685.1

==> NW_009592688.1.lst <==
XP_009779700.1+ NW_009592688.1
XP_009779701.1+ NW_009592688.1
XP_009779702.1+ NW_009592688.1

==> NW_009592716.1.lst <==
XP_009779703.1+ NW_009592716.1

コメントに基づいて繰り返しtgt="Parent"入力してください。test.gff3

tail *.lst

==> NbV1Ch18.lst <==
NBlab18G26040.1+ NbV1Ch18
NBlab18G26050.1- NbV1Ch18
NBlab18G26060.1+ NbV1Ch18
NBlab18G26070.1+ NbV1Ch18
NBlab18G26080.1- NbV1Ch18
NBlab18G26090.1- NbV1Ch18
NBlab18G26100.1- NbV1Ch18
NBlab18G26110.1- NbV1Ch18
NBlab18G26120.1+ NbV1Ch18
NBlab18G26130.1+ NbV1Ch18

==> NbV1Ch19.lst <==
NBlab19G29030.1+ NbV1Ch19
NBlab19G29040.1- NbV1Ch19
NBlab19G29050.1- NbV1Ch19
NBlab19G29060.1- NbV1Ch19
NBlab19G29070.1+ NbV1Ch19
NBlab19G29080.1+ NbV1Ch19
NBlab19G29090.1- NbV1Ch19
NBlab19G29100.1- NbV1Ch19
NBlab19G29110.1- NbV1Ch19
NBlab19G29120.1- NbV1Ch19

牙

必要なフィールドを選択しtgtて最初にレコードを選択してください。CDS

awk -F"[\t;:,=]" -v tgt="Genbank" '$3=="CDS"{

見つかるまでフィールドを繰り返します。tgt

   for (f=4; f<=NF; f++) if ($f ~ tgt) {

ターゲットフィールドの値$(f+1)がで終わっていることを確認してください.1。その場合はout、移動したいファイル名の値を持つ配列にフォーマットされた出力を保存します。

     if ( $(f+1) ~ /\.1$/ ) out[$(f+1)$7" "$1]=$1".lst"}}

完了したら、awk配列にインデックス付けされた数値に基づいて昇順に出力配列を繰り返すように設定します。

   END{PROCINFO["sorted_in"]="@ind_num_asc";

次に配列を繰り返し、目的のインデックスをoそのファイルに印刷します。out[o]

      for (o in out) print o > out[o]}' GCF_000393655.1_Nsyl_genomic.gff

Answer