FASTA(複数のセグメントのみを含む)ファイルでHSAT1反復シーケンスを識別し、発生頻度を計算する方法は?

FASTA(複数のセグメントのみを含む)ファイルでHSAT1反復シーケンスを識別し、発生頻度を計算する方法は?

私は最初にパターンを識別し、次にパターンが発生する回数を計算するのに役立つ可能性があることをシェルで探しています。タイトルが素晴らしいだろうので、これらのシーケンスが始まり終わる場所を知ることができるかどうかが重要です!

問題に精通している必要があります。

まず、HSAT1座標を使用してゲノムをマスクしようとしましたが、うまくRepeatMasker機能しませんでした。それで、すべてのHSAT1ゾーンを含むFASTAファイルを取得しました。

さて、例えば、

acataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgt

だからここでストレッチを10回繰り返してください。

まず、変数に拡張されたかどうかを検出し、次に位置とともに計算したいと思います。

結果:

Chr17 acataaaatatcaaagtacacaaaatatatattatatactgt 10

ありがとうございます。

関連情報