次のファイルがあります。
Id Chr Start End
Prom_1 chr1 3978952 3978953
Prom_1 chr1 3979165 3979166
Prom_1 chr1 3979192 3979193
Prom_2 chr1 4379047 4379048
Prom_2 chr1 4379091 4379092
Prom_2 chr1 4379345 4379346
Prom_2 chr1 4379621 4379622
Prom_3 chr1 5184469 5184470
Prom_3 chr1 5184495 5184496
私が抽出したいのは、次のように開始と終了が同じですId
。
Id Chr Start End
Prom_1 chr1 3978952 3979193
Prom_2 chr1 4379047 4379622
Prom_3 chr1 5184469 5184496
ご存知のように、繰り返し回数はId
開始と終了の間に一定ではありません。どんなアイデアでも大いに感謝します。
答え1
GNUと共にデータ混合:
datamash -H -W -g 1,2 min 3 max 4 <input
答え2
これは、awkを使用してファイルを読み取るか、他の方法を使用する従来のループを介して行うことができますが、awkベースのソリューションを提供するにはawkに精通していません。次の解決策はbashでうまく機能し、単純なawk、grep、および配列を使用します。
既知のIDがあります(パラメータまたはユーザー入力を介して)
id="Prom_1" #Or for user input read -p "Give Id :" id
header=$(head -1 a.txt) #get the 1st line and store it as header.
data=($(grep $id a.txt)) #grep the file for given the id and fill an array
echo "$header"
echo -e "${data[0]}\t${data[1]}\t${data[2]}\t${data[-1]}" #data[-1] refers to the last element of the data array
#Output:
Id Chr Start End
Prom_1 chr1 3978952 3979193
秘密は、配列が空白(デフォルトIFS)で区切られたすべてのgrep値を取得するため、配列は次のようになります。
root@debi64:# id="Prom_1";data=($(grep $id a.txt));declare -p data
declare -a data=([0]="Prom_1" [1]="chr1" [2]="3978952" [3]="3978953" [4]=$'\nProm_1' [5]="chr1" [6]="3979165" [7]="3979166" [8]=$'\nProm_1' [9]="chr1" [10]="3979192" [11]="3979193")
#declare -p command just prints out all the data of the array (keys and values)
ファイルからIDを自動的に取得するには、次のようにuniq progを使用できます。
readarray -t ids< <(awk -F" " '{print $1}' a.txt |uniq |tail -n+2)
#For Field separator= " " print the first field (id), print them as unique fields and store them in an array.
#Here the use of readarray is better to handle data separated by new lines.
declare -p ids
#Output: declare -a ids=([0]="Prom_1" [1]="Prom_2" [2]="Prom_3")
一緒に集めて:
header=$(head -1 a.txt) #get the 1st line and store it as header.
readarray -t ids< <(awk -F" " '{print $1}' a.txt |uniq |tail -n+2)
echo "$header"
for id in ${ids[@]}
do
data=($(grep $id a.txt))
echo -e "${data[0]}\t${data[1]}\t${data[2]}\t${data[-1]}"
done
#Output
Id Chr Start End
Prom_1 chr1 3978952 3979193
Prom_2 chr1 4379047 4379622
Prom_3 chr1 5184469 5184496
答え3
これを試してみることができますか?
$ awk 'NR==1{print; next}NR!=1{if(!($1 in Arr)){printf("\t%s\n%s\t%s\t%s",a,$1,$2,$3);Arr[$1]++}else{a=$NF}}END{printf("\t%s\n",a)}' input.txt
Id Chr Start End
Prom_1 chr1 3978952 3979193
Prom_2 chr1 4379047 4379622
Prom_3 chr1 5184469 5184496
awk '
NR==1{print; next}
NR!=1{
if(!($1 in Arr))
{
printf("\t%s\n%s\t%s\t%s",a,$1,$2,$3);Arr[$1]++;
}
else
{
a=$NF
}
}
END{
printf("\t%s\n",a)
}' input.txt
答え4
awkを使用して変数に保存する別の解決策:
ファイルのヘッダーを取得し、出力ファイルに入れます。
row1=$(head -1 input_file)
echo $row1 | sed -e 's/ /\t/g' > output_file
最初の列の一意の値を取得します。
col1=$(for i in $(awk 'NR>1 {print $1}' input_file | uniq); do echo $i; done)
最初の列の値ごとに、2 番目の行の値が最初に表示されるものを取得します。
col2=$(for i in $(echo "$col1"); do grep -m1 $i input_file | awk '{print $2}'; done)
各最初の列の値に基づいて、3番目の列の最初の値を取得します。
col3=$(for i in $(echo "$col1"); do grep -m1 $i input_file | tail -1 | awk '{print $3}'; done)
各最初の列の値に基づいて、4番目の列の最後の値を取得します。
col4=$(for i in $(echo "$col1"); do grep $i input_file | tail -1 | awk '{print $4}'; done)
次の値をすべて出力ファイルに追加します。
paste -d'\t' <(echo "$col1") <(echo "$col2") <(echo "$col3") <(echo "$col4") >> output_file