awkを使用して目的の出力を取得し、出力を別のファイルに追加するにはどうすればよいですか？

Question 1

を使用してくださいawk。区切り文字が空白以上の場合は試してみてください。

$ awk -F' +|"' 'NR==FNR {a[$11]=$5-$4+1;next} FNR==1{$(NF+1)="num"}{print $0,a[$2]}' test.gtf test2.tsv | column -t

ただし、実際にタブの場合は試してみることができます。

awk -F'\t|"' 'NR==FNR {a[$11]=$5-$4+1;next} FNR==1{$(NF+1)="num"}{print $0,a[$2]}' test.gtf test2.tsv | column -t

出力

gene_id      transcript_id    column3  column4  column5  column6  num
XLOC_000017  transc_00000019  -        -        -        -        282
XLOC_000001  transc_00000001  -        -        -        -        320
XLOC_000002  transc_00000002  -        -        -        -        289
XLOC_000003  transc_00000003  -        -        -        -        207

Answer

を使用してくださいawk。区切り文字が空白以上の場合は試してみてください。

$ awk -F' +|"' 'NR==FNR {a[$11]=$5-$4+1;next} FNR==1{$(NF+1)="num"}{print $0,a[$2]}' test.gtf test2.tsv | column -t

ただし、実際にタブの場合は試してみることができます。

awk -F'\t|"' 'NR==FNR {a[$11]=$5-$4+1;next} FNR==1{$(NF+1)="num"}{print $0,a[$2]}' test.gtf test2.tsv | column -t

出力

gene_id      transcript_id    column3  column4  column5  column6  num
XLOC_000017  transc_00000019  -        -        -        -        282
XLOC_000001  transc_00000001  -        -        -        -        320
XLOC_000002  transc_00000002  -        -        -        -        289
XLOC_000003  transc_00000003  -        -        -        -        207

Question 2

入力フィールド間のスペースはタブではないので、awkにtabと通知するのではなく、そのステートメントを削除して次のように-F"\t"変更します（または必要に応じて$ 0の代わりに$ NFを使用してください）。ID=substr($9, length($9)-16, 15)ID=substr($0, length($0)-16, 15)

$ awk '$3=="transcript" {ID=substr($0, length($0)-16, 15); L[ID]+=$5-$4+1}
           END{for(i in L){print i"\t"L[i]}}' test.gtf
id "XLOC_000017 282
id "XLOC_000001 320
id "XLOC_000002 289
id "XLOC_000003 207

通話に使用している電話番号substr()が閉じていて、前に追加の項目がありませんtransc_。この問題を解決してください。

上記は、入力したスペースに関係なく機能します。

ただし、組み込み変数名と競合しないように、変数名をすべて大文字にしないでください。また、l変数名に文字を使用しないでください。数字に似ているようです1。または、OFSを使用して区切られた出力フィールドの内容を指定します。

$ awk -v OFS='\t' '$3=="transcript" {id=substr($0, length($0)-16, 15); num[id]+=$5-$4+1}
           END{for(id in num){print id, num[id]}}' test.gtf
id "XLOC_000017 282
id "XLOC_000001 320
id "XLOC_000002 289
id "XLOC_000003 207

Answer

入力フィールド間のスペースはタブではないので、awkにtabと通知するのではなく、そのステートメントを削除して次のように-F"\t"変更します（または必要に応じて$ 0の代わりに$ NFを使用してください）。ID=substr($9, length($9)-16, 15)ID=substr($0, length($0)-16, 15)

$ awk '$3=="transcript" {ID=substr($0, length($0)-16, 15); L[ID]+=$5-$4+1}
           END{for(i in L){print i"\t"L[i]}}' test.gtf
id "XLOC_000017 282
id "XLOC_000001 320
id "XLOC_000002 289
id "XLOC_000003 207

通話に使用している電話番号substr()が閉じていて、前に追加の項目がありませんtransc_。この問題を解決してください。

上記は、入力したスペースに関係なく機能します。

ただし、組み込み変数名と競合しないように、変数名をすべて大文字にしないでください。また、l変数名に文字を使用しないでください。数字に似ているようです1。または、OFSを使用して区切られた出力フィールドの内容を指定します。

$ awk -v OFS='\t' '$3=="transcript" {id=substr($0, length($0)-16, 15); num[id]+=$5-$4+1}
           END{for(id in num){print id, num[id]}}' test.gtf
id "XLOC_000017 282
id "XLOC_000001 320
id "XLOC_000002 289
id "XLOC_000003 207

awkを使用して目的の出力を取得し、出力を別のファイルに追加するにはどうすればよいですか？

答え1

答え2

関連情報