シーケンスが改行文字で区切られたfastaファイルがあります。改行文字を削除したいです。私のファイルの例は次のとおりです。
>accession1
ATGGCCCATG
GGATCCTAGC
>accession2
GATATCCATG
AAACGGCTTA
私はこれを次のように変換したいと思います:
>accession1 ATGGCCCATGGGATCCTAGC
>accession2 GATATCCATGAAACGGCTTA
2つの列を持つ2番目のファイルが必要です。 1つ目は識別番号、2つ目は順序です。
答え1
awkを使用してください:
awk '/^>/&&NR>1{print "";}{printf "%s",/^>/ ? $0" " : $0}' file
>accession1 ATGGCCCATGGGATCCTAGC
>accession2 GATATCCATGAAACGGCTTA