ファイル内の値の最初の5％を印刷します。

Question 1

1つの難しさは、ピリオドだけを小数点区切り記号として扱うことawkです。awk

質問に対するコメントで要求されたように、最も高い値の95％以上の値を報告するには、次のようにします。

awk '{v = $2; gsub(",", ".", v); v += 0}
     !second_pass {
        if (v >= max || !started) {max = v; started=1}
        next
     }
     v >= 95 * max / 100' file second_pass=1 file

これは作る:

386 16501,5
446 16480
460 16467,7
534 16437,2
762 16433,7
779 16400,6
783 16398
828 16376,4
918 16319,4

最も高い値を持つ上位5％の行が必要な場合は、これを使用すると思います。（同様の値を含まない行を無視したいと予想されますX3 H。）perl

perl -lane 'if ($F[1] =~ /\d/) {push @v, ($F[1] =~ y/,/./r); push @l, $_}
            END {
              print for (map {$l[$_]}
                        sort {$v[$b] <=> $v[$a]}
                        (0..$#v))[0..($#v+1)*5/100-1]
            }' file

これは作る:

386 16501,5
446 16480

Answer

1つの難しさは、ピリオドだけを小数点区切り記号として扱うことawkです。awk

質問に対するコメントで要求されたように、最も高い値の95％以上の値を報告するには、次のようにします。

awk '{v = $2; gsub(",", ".", v); v += 0}
     !second_pass {
        if (v >= max || !started) {max = v; started=1}
        next
     }
     v >= 95 * max / 100' file second_pass=1 file

これは作る:

386 16501,5
446 16480
460 16467,7
534 16437,2
762 16433,7
779 16400,6
783 16398
828 16376,4
918 16319,4

最も高い値を持つ上位5％の行が必要な場合は、これを使用すると思います。（同様の値を含まない行を無視したいと予想されますX3 H。）perl

perl -lane 'if ($F[1] =~ /\d/) {push @v, ($F[1] =~ y/,/./r); push @l, $_}
            END {
              print for (map {$l[$_]}
                        sort {$v[$b] <=> $v[$a]}
                        (0..$#v))[0..($#v+1)*5/100-1]
            }' file

これは作る:

386 16501,5
446 16480

Question 2

TxRはっきりしない言葉アッ別のコードで囲まれたマクロ：

(let* ((data (build
               (awk ((set rec (regsub #/,/ "." rec))
                     (fconv - r))
                 ([f 1] (add (list [f 1] orec))))))
       (n (length data)))
  (mapdo (opip second put-line)
         [[sort data > first] (trunc (* 5 0..n) 100)]))

伝説：let*、build、awk、rec、orec、fconv、mapdo、opip。

ランニング：

$ txr top5.tl file.txt
386 16501,5
446 16480

これは、Awkの例がLispマクロの場合に他の構造に簡単に組み込むことができることを示しています。ここではbuild、リストが作成されるコンテキストを設定するフォーム内に表示されます。(add ...)内部マクロは、build実行が完了すると（内部操作が完了した場合）、返される非表示のリストに追加されます。(build ...)awk

私たちが作成したリストはペアリストです。各ペアの最初の要素は浮動小数点値です。 2番目の要素は文字列です。つまり、orec変数から取得した元の awk レコードの蓄積レコードです。データをソートするときは、各ペアの最初の要素をソートキーとして使用し、関数を介して降順を使用します>。ソートされたデータの最初の5％を印刷するときは、(opip second put-line)各ペアの2番目の要素（元のレコード）を選択して渡す機能パイプラインを介してマッピングしますput-line。

この式は(trunc (* 5 0..n) 100)新しいTXR機能を利用します。範囲は算術をサポートします。。データリスト全体の範囲を表す範囲を選択し、0..nその範囲に 5 を乗算し (切り捨てられた整数除算を使用して) 100 で除算します。これは0〜5％の範囲を提供します。

低いゼロエンドポイントは影響を受けないため、n範囲を計算せずに範囲を計算してから形成することでこれを行うことができます0..(trunc (* 5 n) 100)。下限エンドポイントがゼロの場合、利点はありません。

しかし、2番目の5番目のパーセンタイルを取得するためにコードを変更するとします。これにより、範囲演算はより簡単になります(trunc (* 5 (+ 0..n n)) 100)。範囲nに追加し（[0、n）から[n、2n）に置き換えて、前と同様に5％に縮小します。つまり、5を掛けて100に切ります。0..n

Answer

TxRはっきりしない言葉アッ別のコードで囲まれたマクロ：

(let* ((data (build
               (awk ((set rec (regsub #/,/ "." rec))
                     (fconv - r))
                 ([f 1] (add (list [f 1] orec))))))
       (n (length data)))
  (mapdo (opip second put-line)
         [[sort data > first] (trunc (* 5 0..n) 100)]))

伝説：let*、build、awk、rec、orec、fconv、mapdo、opip。

ランニング：

$ txr top5.tl file.txt
386 16501,5
446 16480

これは、Awkの例がLispマクロの場合に他の構造に簡単に組み込むことができることを示しています。ここではbuild、リストが作成されるコンテキストを設定するフォーム内に表示されます。(add ...)内部マクロは、build実行が完了すると（内部操作が完了した場合）、返される非表示のリストに追加されます。(build ...)awk

私たちが作成したリストはペアリストです。各ペアの最初の要素は浮動小数点値です。 2番目の要素は文字列です。つまり、orec変数から取得した元の awk レコードの蓄積レコードです。データをソートするときは、各ペアの最初の要素をソートキーとして使用し、関数を介して降順を使用します>。ソートされたデータの最初の5％を印刷するときは、(opip second put-line)各ペアの2番目の要素（元のレコード）を選択して渡す機能パイプラインを介してマッピングしますput-line。

この式は(trunc (* 5 0..n) 100)新しいTXR機能を利用します。範囲は算術をサポートします。。データリスト全体の範囲を表す範囲を選択し、0..nその範囲に 5 を乗算し (切り捨てられた整数除算を使用して) 100 で除算します。これは0〜5％の範囲を提供します。

低いゼロエンドポイントは影響を受けないため、n範囲を計算せずに範囲を計算してから形成することでこれを行うことができます0..(trunc (* 5 n) 100)。下限エンドポイントがゼロの場合、利点はありません。

しかし、2番目の5番目のパーセンタイルを取得するためにコードを変更するとします。これにより、範囲演算はより簡単になります(trunc (* 5 (+ 0..n n)) 100)。範囲nに追加し（[0、n）から[n、2n）に置き換えて、前と同様に5％に縮小します。つまり、5を掛けて100に切ります。0..n

Question 3

これはサンプルファイルで動作します。

sort -gk 2,2 file.txt | tail -n2
446 16480
386 16501,5

確かなことについては最初の5これにはいくつかの追加ロジックが必要です。これは、ファイルの改行数に小数点以下の桁数が0の0.05を掛けて小数点以下の桁数を削除します。

sort -gk 2,2 file | tail -n$(bc <<<"scale=0; ($(wc -l < file)*.05)/1" | cut -d\. -f1)
446 16480
386 16501,5

Answer

これはサンプルファイルで動作します。

sort -gk 2,2 file.txt | tail -n2
446 16480
386 16501,5

確かなことについては最初の5これにはいくつかの追加ロジックが必要です。これは、ファイルの改行数に小数点以下の桁数が0の0.05を掛けて小数点以下の桁数を削除します。

sort -gk 2,2 file | tail -n$(bc <<<"scale=0; ($(wc -l < file)*.05)/1" | cut -d\. -f1)
446 16480
386 16501,5

ファイル内の値の最初の5％を印刷します。

答え1

答え2

答え3

関連情報