200個のテキストファイルがあります。各テキストファイルには数学数字列(100,000行)が含まれています。
このデータに対して統計処理(確率または分位数の検索)を実行したいと思います。各ファイルに関連する平均値とシグマ値を知っています。データセットの確率や分位数を計算する簡単な方法はありますか?
そうでない場合は、分位数=(ソートされたデータの平均)/シグマ式を知っています。例えば
ファイル.txt 入力
12.2
10.11
15.55
5.01
...
...
12.9
一時ファイル.txt
5.01
10.11
12.2
12.9
15.55
...
...
最終出力ファイルには2つの列を含める必要があります。最初の列は2番目の列と同じです。temp_output.txt
これは各要素の次の数学関数です。
= (row(i)-mean)/sigma
ここで、平均とシグマは、それぞれ10.1と2.02という2つの数学数です。上記の値の場合、最終出力ファイルは次のようになります。
出力.txt
5.01 -2.51980198
10.11 0.004950495
12.2 1.03960396
12.9 1.386138614
15.55 2.698019802
...
...
答え1
そんなこともありますか?
mybox $ cat file1.txt
12.2
10.11
15.55
5.01
mybox $ awk -v mean=10.2 -v sigma=2.02 '{printf "%f %f\n",$1,($1-mean)/sigma ; }' file1.txt
12.200000 0.990099
10.110000 -0.044554
15.550000 2.648515
5.010000 -2.569307
不思議な部分
awk -v mean=10.2 -v sigma=2.02 '{printf "%f %f\n",$1,($1-mean)/sigma ; }' file1.txt
平均1、平均2、...平均200をどのように提供する予定ですか?