LinuxのFastaファイルから列を抽出する

Question 1

使用awk:

awk -F ':' '/^>/ { sub(" .*",    "", $10)
                   sub(" \\[.*", "", $11)
                   print $10, $11 }' file.fa

抽出するデータは、[各ヘッダー行の10番目のフィールドの最初の単語と11番目のフィールドまでのすべてです（フィールドが区切ら:れている場合）。

このコードは、10番目のフィールドの最初のスペースと[11番目のフィールドの後のすべてのコンテンツ（[前のスペースを含む）を削除します。

次に、変更されたフィールド10と11を印刷します。

質問のデータ出力を提供します。

TRBD1 T cell receptor beta diversity 1
TRDD2 T cell receptor delta diversity 2

Answer

使用awk:

awk -F ':' '/^>/ { sub(" .*",    "", $10)
                   sub(" \\[.*", "", $11)
                   print $10, $11 }' file.fa

抽出するデータは、[各ヘッダー行の10番目のフィールドの最初の単語と11番目のフィールドまでのすべてです（フィールドが区切ら:れている場合）。

このコードは、10番目のフィールドの最初のスペースと[11番目のフィールドの後のすべてのコンテンツ（[前のスペースを含む）を削除します。

次に、変更されたフィールド10と11を印刷します。

質問のデータ出力を提供します。

TRBD1 T cell receptor beta diversity 1
TRDD2 T cell receptor delta diversity 2

Question 2

次のようにしてみてください。

cat ... | sed -n '/^>/ { s/.*description: *//; s/\[.*//; p; }'

（モバイル機器なのでテストはしませんでした。）

よりエレガントな方法があります。たとえば、Awkループが最も柔軟です。

Answer

次のようにしてみてください。

cat ... | sed -n '/^>/ { s/.*description: *//; s/\[.*//; p; }'

（モバイル機器なのでテストはしませんでした。）

よりエレガントな方法があります。たとえば、Awkループが最も柔軟です。

関連情報