文字列（部分的かつ正確な）に基づいてフィールドを抽出する

Question 1

match()、\<単語の境界、頭字語の\s/\S3番目の引数としてGNU awkを使用します。

$ awk -v OFS='\t' 'match($0,/(\<DP4=\S+).*\s(\S+\tMODERATE\t\S+)/,a){print a[1], a[2]}' file
DP4=30,13,22,16 missense_variant        MODERATE        ABCB6

Answer

match()、\<単語の境界、頭字語の\s/\S3番目の引数としてGNU awkを使用します。

$ awk -v OFS='\t' 'match($0,/(\<DP4=\S+).*\s(\S+\tMODERATE\t\S+)/,a){print a[1], a[2]}' file
DP4=30,13,22,16 missense_variant        MODERATE        ABCB6

Question 2

awk 'BEGIN{ OFS="\t" } {
    nrf=split($0, tmp); s1=s2=0;
    for(i=1; i<=nrf; i++){
        printf "%s", (tmp[i] ~/DP4=/     &&++s1? (s2?OFS:"") tmp[i]:
                     (tmp[i]=="MODERATE" &&++s2? (s1?OFS:"") tmp[i-1] OFS tmp[i] OFS tmp[i+1]:"") );
    }; print "";
}' infile

我々は使用した分割()関数現在処理されている行を毎回一時配列に分割します。tmpデフォルトのFS（スペース、つまりタブ/スペース）では、これはnrf分割（）関数によって分割されたフィールド数を保持するために使用される一時変数です。

次に、このフィールドにfor-lookを使用し、現在読み取られているフィールドがtmp[i]希望の条件を満たしていることを確認し、そうである場合は印刷し、そうでない場合は次の条件を確認し、表示された場合は前のフィールドを印刷します。tmp[i-1]次に、現在のフィールド自体、tmp[i]その右側の次のフィールドtmp[i+1]、それ以外の場合は空の文字列を印刷します""。

一時変数s1そしてs2最初と2番目の印刷条件ジョブの間のフィールド区切り記号を制御するために使用されます。したがって、次のフィールドの前にフィールドがある場合は、OFS 移行を印刷する必要があります。

Answer

awk 'BEGIN{ OFS="\t" } {
    nrf=split($0, tmp); s1=s2=0;
    for(i=1; i<=nrf; i++){
        printf "%s", (tmp[i] ~/DP4=/     &&++s1? (s2?OFS:"") tmp[i]:
                     (tmp[i]=="MODERATE" &&++s2? (s1?OFS:"") tmp[i-1] OFS tmp[i] OFS tmp[i+1]:"") );
    }; print "";
}' infile

我々は使用した分割()関数現在処理されている行を毎回一時配列に分割します。tmpデフォルトのFS（スペース、つまりタブ/スペース）では、これはnrf分割（）関数によって分割されたフィールド数を保持するために使用される一時変数です。

次に、このフィールドにfor-lookを使用し、現在読み取られているフィールドがtmp[i]希望の条件を満たしていることを確認し、そうである場合は印刷し、そうでない場合は次の条件を確認し、表示された場合は前のフィールドを印刷します。tmp[i-1]次に、現在のフィールド自体、tmp[i]その右側の次のフィールドtmp[i+1]、それ以外の場合は空の文字列を印刷します""。

一時変数s1そしてs2最初と2番目の印刷条件ジョブの間のフィールド区切り記号を制御するために使用されます。したがって、次のフィールドの前にフィールドがある場合は、OFS 移行を印刷する必要があります。

文字列（部分的かつ正確な）に基づいてフィールドを抽出する

答え1

答え2

関連情報