
非常に奇妙な問題があります。いくつかのバイオインフォマティクス計算を実行していますが、ダウンストリームアプリケーションは現在の形式のヘッダー情報を受け入れません。この問題を回避するためにfastaヘッダー情報を修正しました。言う:
元のヘッダーは次のとおりです。 ">abc1"
変更されたヘッダーは次のとおりです。 "">abc1|abc1"
現在変更されているヘッダーファイルは130万個で、すべて「abc」パターンに従い、次の数字は連続番号を表します。
私の計算ファイルはほとんどタブで区切られた値ですが、古いヘッダー情報が含まれています。 awk、sed、または同様のプログラムを使用して、130万件の「abc1」発生をすべて「abc1 | abc1」に自動的に置き換えることはできますか?明らかに、すべてのabc2はabc2 | abc2などです。
修正されたヘッダ情報で再計算を行うと、かなり長い時間がかかるため、ヘッダ情報が変わったからといって作業をやり直したくはありません。
答え1
sedはこのように使用できますか?
sed -r -e 's/^>(abc[0-9]+)/>\1|\1/g' input.txt > output.txt
より正確な回答を得るには、実際の入力と予想される出力を表示することをお勧めします。