私は最初にパターンを識別し、次にパターンが発生する回数を計算するのに役立つ可能性があることをシェルで探しています。タイトルが素晴らしいだろうので、これらのシーケンスが始まり終わる場所を知ることができるかどうかが重要です!
問題に精通している必要があります。
まず、HSAT1座標を使用してゲノムをマスクしようとしましたが、うまくRepeatMasker
機能しませんでした。それで、すべてのHSAT1ゾーンを含むFASTAファイルを取得しました。
さて、例えば、
acataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgt
だからここでストレッチを10回繰り返してください。
まず、変数に拡張されたかどうかを検出し、次に位置とともに計算したいと思います。
結果:
Chr17 acataaaatatcaaagtacacaaaatatatattatatactgt 10
ありがとうございます。