パターンで始まる重複行と次の行を削除する方法は？

Question 1

getline次の行を取得するには、awkで使用できます。

awk '/^>/{ if(!seen[$0]++){ print;getline;print } else { getline } }'

複数行を処理するより簡単な答えがあります。

awk '/^>/{ skip = seen[$0]++ }
     { if(!skip)print }'

Answer

getline次の行を取得するには、awkで使用できます。

awk '/^>/{ if(!seen[$0]++){ print;getline;print } else { getline } }'

複数行を処理するより簡単な答えがあります。

awk '/^>/{ skip = seen[$0]++ }
     { if(!skip)print }'

Question 2

POSIXツールボックスの使用：

paste - - <file | awk '{$1=$1};!seen[$0]++' | tr '\t' '\n'

Answer

POSIXツールボックスの使用：

paste - - <file | awk '{$1=$1};!seen[$0]++' | tr '\t' '\n'

Question 3

そしてawk：

awk 'NR%2==1{l=$0;next} !seen[l"\n"$0]++{print l"\n"$0}' file

NR%2==1>1すべての 2 番目の行は true なので、>2とがある行はです>3。その場合は、内容を変数に保存して行lを続行してくださいnext。
!seen[l"\n"$0]++ここでは、一意の行を確認せずに確認します。2ユニークな連続ライン。
- 一意の場合は、最後の行lと現在の行$0の間に改行文字を入れて印刷します\n。

出力：

>1 
ACCGGTTTCCTTGAAATT
>2 
AACCTTCCGGTTAATT
>3 
AACCTTCCGGTTAATT

Answer

そしてawk：

awk 'NR%2==1{l=$0;next} !seen[l"\n"$0]++{print l"\n"$0}' file

NR%2==1>1すべての 2 番目の行は true なので、>2とがある行はです>3。その場合は、内容を変数に保存して行lを続行してくださいnext。
!seen[l"\n"$0]++ここでは、一意の行を確認せずに確認します。2ユニークな連続ライン。
- 一意の場合は、最後の行lと現在の行$0の間に改行文字を入れて印刷します\n。

出力：

>1 
ACCGGTTTCCTTGAAATT
>2 
AACCTTCCGGTTAATT
>3 
AACCTTCCGGTTAATT

関連情報