特定の列から文字列の一部を抽出する

Question 1

GNU awkがある場合は、gensub置換に適した正規表現を使用できます。たとえば、すべてがgene_idタブ区切りの単一フィールド9であるとします。

gawk -F '\t' '{$9 = gensub(/.*gene_name "([^"]*)".*/,"\\1","1",$9); print $1,$4,$5,$7,$9}' input
chr1 11869 12227 + DDX11L1
chr1 12010 12057 + DDX11L1

Answer

GNU awkがある場合は、gensub置換に適した正規表現を使用できます。たとえば、すべてがgene_idタブ区切りの単一フィールド9であるとします。

gawk -F '\t' '{$9 = gensub(/.*gene_name "([^"]*)".*/,"\\1","1",$9); print $1,$4,$5,$7,$9}' input
chr1 11869 12227 + DDX11L1
chr1 12010 12057 + DDX11L1

Question 2

複数の区切り記号と組み合わせて使用してくださいawk。

 awk -F"[\" \t]" '{print $1,$11,$14,$20,$40}' infile.txt

Answer

複数の区切り記号と組み合わせて使用してくださいawk。

 awk -F"[\" \t]" '{print $1,$11,$14,$20,$40}' infile.txt

Question 3

awk区切り文字としてスペースを使用します。

この試み：

$ awk '{print $1, $4, $5, $7, substr($16, 2, 7) }' file
chr1 11869 12227 + DDX11L1
chr1 12010 12057 + DDX11L1

Answer

awk区切り文字としてスペースを使用します。

この試み：

$ awk '{print $1, $4, $5, $7, substr($16, 2, 7) }' file
chr1 11869 12227 + DDX11L1
chr1 12010 12057 + DDX11L1

特定の列から文字列の一部を抽出する

答え1

答え2

答え3

関連情報