SSV / CSV操作:比率の計算

SSV / CSV操作:比率の計算

datamash私は経験豊富なユーザーであることを知っていますawk。 ratioを探していますawk。以下があるとしましょう。

// data_file
foo bar biz
10  100 1000
11  150 990
10  95  1010
9   99  950
// usage goal, in pseudo code
cat data_file | <tool> --ratio foo,bar --ratio foo,biz --ratio bar,biz
// desired output
foo bar biz foo_bar foo_biz bar_biz
10  100 1000 0.1    0.01    0.1  
11  150 990  0.073  0.011   0.1515
10  95  1010 0.105  0.0099  0.094
9   99  950  0.09   0.0095  0.1042

このインターフェースを得るために、C++で簡単なものを作りましょう。

それまでUnixには簡単な解決策がありますか?

答え1

ミラーの使用(https://github.com/johnkerl/miller)と実行

mlr --pprint put '$foo_bar=$foo/$bar;$foo_biz=$foo/$biz;$bar_biz=$bar/$biz' input >output

あなたは

foo bar biz  foo_bar  foo_biz  bar_biz
10  100 1000 0.100000 0.010000 0.100000
11  150 990  0.073333 0.011111 0.151515
10  95  1010 0.105263 0.009901 0.094059
9   99  950  0.090909 0.009474 0.104211

答え2

いくつかのbash機能を使用すると、paste作業したいファイルがある場合はbc非常に直接移動できます。csvtool

div() {
  printf "%1.4f\n" $(bc -l <<<"1.0 * $1 / $2")
}
export -f div

ratio() {
  echo "$1"_"$2"
  csvtool -t ' ' namedcol $1,$2 data.ssv |
  tail -n+2                              |
  csvtool call div -
}

paste -d ' ' <(cat data.ssv) <(ratio foo bar) <(ratio foo biz) <(ratio bar biz) |
csvtool -t ' ' readable -

出力:

foo bar biz  foo_bar foo_biz bar_biz 
10  100 1000 0.1000  0.0100  0.1000  
11  150 990  0.0733  0.0111  0.1515  
10  95  1010 0.1053  0.0099  0.0941  
9   99  950  0.0909  0.0095  0.1042 

本当にストリームで実行したい場合は、最良の方法はおそらくawk次のとおりです。

解析.awk

# Parse the requested column ratios into dividend[] and divisor[]
# by column name
BEGIN {
  split(ratios_str, ratios, / +/)
  for(r in ratios) {
    split(ratios[r], cols, /,/)
    dividend[++i] = cols[1] 
    divisor[i]    = cols[2]
  }
}

# Sort out the header
NR == 1 { 
  # Create the ColumnName-to-ColumnNumber hash
  split($0, a); for(k in a) c2n[a[k]]=k

  # Print the header line
  printf "%s ", $0
  for(i=1; i<=length(dividend); i++)
    printf "%s_%s ", dividend[i], divisor[i]
  printf "\n"
}

NR > 1 {
  printf "%s ", $0
  for(i=1; i<=length(dividend); i++)
    printf "%1.4f ", $(c2n[dividend[i]]) / $(c2n[divisor[i]])
  printf "\n"
}

次のように実行します。

<data.ssv awk -f parse.awk -v ratios_str='foo,bar foo,biz bar,biz' | column -t

出力:

foo  bar  biz   foo_bar  foo_biz  bar_biz
10   100  1000  0.1000   0.0100   0.1000
11   150  990   0.0733   0.0111   0.1515
10   95   1010  0.1053   0.0099   0.0941
9    99   950   0.0909   0.0095   0.1042

関連情報