同じ文字が繰り返される重複レコードを探したいです。たとえば、探したいパターンが「AA」または「AAAAA」です。 grepコマンドを使用して検索します。しかし、ここでは正しく動作しません。 ATCTAGCGATCGATAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAG TATCTATCTATCTCTACTACTTCGCATCGCTAGCTCGACTGCATAGACTAGAAAAAGCATCAGCTACCGCCTCAGCATCGACTACGATACG TAGAG ACTACGTACCGATAAGCACTACGTCAGCCTAGACTCACGACT GATCGATCGATCGACTACGCAGCTACGAGATCGATCGATCGATCGTAGCTAGCTCATACTACACGGCATATACGTGTCGATgctAGTAACTACAT ACGCTAGCTAGCTACGATCAATCGAGCTATCGATCAGCTACGATCTAGAGATC
答え1
質問は少し不明です。同じ核酸で構成されたすべての部分文字列を複数回探したいと仮定すると、sedが役に立ちます。
sed -r 's:([ACGTacgt])\1+:\n>&\n:g;s:^[^>]+$::mg;s:\n+>?:\n:g' INPUT
出力:
TT
GG
AAAAA
CC
CC
CC
CC
AA
CC
AA
AA
特定の核酸については、[Aa]
スクリプトの始めに使用してください。