私は次の形式を使用して複数列のデータファイル(ここでは10行の例ですが、実際のログには150行が含まれています!)分析作業を進めています。
ID(Prot), ID(lig), ID(cluster), dG(rescored), dG(before), POP(before)
9000, lig662, 1, 0.421573, -7.8400, 153
10V2, lig662, 1, 0.42692, -8.0300, 149
3000, lig158, 1, 0.427342, -8.1900, 147
3000, lig158, 1, 0.427342, -8.1900, 147
10V2, lig342, 1, 0.432943, -9.4200, 137
10V1, lig807, 1, 0.434338, -8.0300, 147
10V2, lig369, 1, 0.440377, -7.3200, 156
10V1, lig342, 1, 0.441205, -9.4200, 135
10V1, lig369, 1, 0.465029, -7.3600, 148
10V1, lig158, 1, 0.504513, -7.4800, 135
9000
このデータに基づいて、最初の列(たとえば、10V1
または)と2番目の列(たとえばligXXX)3000
のインデックスに集中する必要があります。特に印刷する必要があります上位3つ2つの列のインデックスとCSVのすべての行でインデックスが発生した回数(2つの列で最も一般的なインデックスを表します):
TOP PROT; TOP LIG
10V1 (number of cases:4), lig 158 (number of cases: 3)
10V2 (number of cases:3), lig 662 (number of cases: 2)
3000 (number of cases: 2), lig 369 (number of cases: 2)
AWKを直接適用して、ソートできる選択された列の発生回数などを計算できます。
awk '{print $1}' file.csv | sort | uniq -c
2つの列に対してこのアイデアを作成し、発生回数でランク付けする必要があります。
答え1
GNU awkの使用
gawk -F',[[:blank:]]+' -v N=3 '
{
count["prot"][$1]++
count["lig"][$2]++
}
function show(thing, n, id) {
print "TOP " toupper(thing)
n = N
for (id in count[thing]) {
printf "%s (number of cases: %d)\n", id, count[thing][id]
if (--n == 0) break
}
}
END {
PROCINFO["sorted_in"] = "@val_num_desc"
show("prot")
show("lig")
}
' file.csv | pr -2Ts$'\t' | sed 's/\t/, /'
TOP PROT, TOP LIG
10V1 (number of cases: 4), lig158 (number of cases: 3)
10V2 (number of cases: 3), lig662 (number of cases: 2)
3000 (number of cases: 2), lig369 (number of cases: 2)
答え2
配列の配列と sorted_in を処理するには、GNU awk を使用します。
$ cat tst.awk
BEGIN { FS=", *"; OFS=", " }
NR > 1 {
cnts[1][$1]++
cnts[2][$2]++
}
END {
numRows = 3
numCols = 2
PROCINFO["sorted_in"] = "@val_num_desc"
for (colNr=1; colNr<=numCols; colNr++) {
rowNr = 0
for (key in cnts[colNr]) {
vals[++rowNr][colNr] = sprintf("%s (number of cases: %d)", key, cnts[colNr][key])
}
}
print "TOP PROT", "TOP LIG"
for (rowNr=1; rowNr<=numRows; rowNr++) {
for (colNr=1; colNr<=numCols; colNr++) {
printf "%s%s", vals[rowNr][colNr], (colNr<numCols ? OFS : ORS)
}
}
}
$ awk -f tst.awk file
TOP PROT, TOP LIG
10V1 (number of cases: 4), lig158 (number of cases: 3)
10V2 (number of cases: 3), lig662 (number of cases: 2)
3000 (number of cases: 2), lig369 (number of cases: 2)