File_A と重なる File_B から名前を抽出します。

File_A と重なる File_B から名前を抽出します。

スペースで区切られた2つのファイル:

ファイル_A

MT 50000
groupI 7850000
groupI 7950000
groupI 9050000
groupI 21750000
groupII 8750000
groupII 10550000
groupII 16150000
groupII 20850000
groupIII 14750000
groupIII 15250000
groupIII 15450000
groupIII 15550000
groupIII 15650000
groupIV 7850000

最初の列はグループIDであり、2番目の列は、100,000単位の長さの間隔の中間点です。S.たとえば、最初の行はMTグループの間隔1〜100000に対応し、2行目は7800000〜7900000間隔に対応する式です。

ファイル_B

MT 2851 3825 Name=mt-nd1
MT 4036 5082 Name=mt-nd2
MT 5465 7015 Name=mt-co1
MT 7173 7863 Name=mt-co2
MT 8097 8780 Name=mt-atp6
groupI 18791 22890 Name=FGF12
groupI 36880 38991 Name=MB21D2
groupI 65279 68049 Name=cldn15lb
groupI 77722 105198 Name=col4a4
groupI 117583 141390 Name=col4a3
groupI 150455 155401 Name=sst1.1
groupI 9050030 9058000 Name=bco2b
groupI 1076088 1085084 Name=SORL1
groupI 1175505 1181937 Name=abcg4b
groupI 1184288 1184688 Name=lyrm9
groupI 1185206 1186192 Name=ift20

File_Bの最初の列は遺伝子が配置されているグループ/染色体の名前、2番目と3番目の列は遺伝子の間隔、2番目の列は始まり、3番目の列は終わりです。最後に、列4は遺伝子名です。 File_Aの100,000間隔内のFile_Bの列4から一意の遺伝子名を抽出したいと思います。

結果ファイル

mt-nd1
mt-nd2
mt-co1
mt-co2
mt-atp6
bco2b

異なるが、同様のプロセスに対して次のコードを使用しています(File_Bにはより多くの列があり、File_Aの2番目の列は間隔の代わりにドットです)。

while read -r id pos; do awk -v id="$id" -v pos="$pos" '$1 == id && pos > $4 && pos < $5 { if (gensub(/.*gene=([A-Za-z0-9]*).*/, "\\1", 1) !~ /\s/) print gensub(/.*gene=([A-Za-z0-9]*).*/, "\\1", 1); }' <File_B.txt; done < File_A.txt > Output_file.txt

答え1

グループ名は同じでなければならないと仮定します(説明では明確ではありませんが、データと期待される出力ではそう提案します)。

$ sort -k1,1 -k2n,2n <(awk '{print $1, $2-50000, $2+50000, $2}' File_A) File_B |
  awk '
    !gsub(/[^=]*=/, "", $4) {g=$1; s=$2; e=$3; m=$4; next}
    $2 > s && $3 <= e && $1 == g {if(m){print g, m; m=""} print "   "$4}
  '
MT 50000
   mt-nd1
   mt-nd2
   mt-co1
   mt-co2
   mt-atp6
groupI 9050000
   bco2b

タイトルなし:

$ sort -k1,1 -k2n,2n <(awk '{print $1, $2-50000, $2+50000}' File_A) File_B |
  awk '
    !gsub(/[^=]*=/, "", $4) {g=$1; s=$2; e=$3; next}
    $2 > s && $3 <= e && $1 == g {print $4}
  '
mt-nd1
mt-nd2
mt-co1
mt-co2
mt-atp6
bco2b

関連情報