random_sourceファイルのサイズは重要ですか?

random_sourceファイルのサイズは重要ですか?

一部のGNU coreutilsユーティリティsortは、shufファイルを有効なサービスシードとして使用します。ファイルサイズは重要ですか?

おすすめの方法、https://www.gnu.org/software/coreutils/manual/html_node/Random-sources.html、opensslベースの方法を使用すると、時間がかなり時間がかかります。

次のように6文字の単語だけを使用するとどうなりますか?これは疑似ランダム性を生成するユーティリティの能力に影響しますか?

shuf -i1-10 --random-source=<(echo durian)

答え1

固定文字列をランダムなソースとして提供すると、同じ方法で「ランダム化」されます。毎回。これを証明するためにテストしましょう。

$ printf '%s\n' a b c | shuf --random-source=<(echo durian)
b
c
a

私のシステムでは、上記のコマンドを実行するたびに出力は同じです。 (実装によって異なる場合がありますが、毎回同じでなければならないと思います。) このXKCDによると、ランダム性をハードコードしています。

ジコCD

実際にはランダムではありません。毎回同じ出力を生成します。固定文字列ソースのサイズは重要ではありません。まだ解決済みです。

関連情報が含まれています提供したリンクについてランダムランダムソースの品質:

/dev/urandomほとんどの実際の目的には十分ですが、個人データの高い価値や長期的な保護を必要とするアプリケーションには、/dev/randomなどの代替データソースが必要な場合があります/dev/arandom

後者の2つのオプションは、最初のオプションよりも「よりランダム」です。つまり、ソースがランダムになるほど、シャッフルもランダムになります。したがって、固定文字列は特に堅牢ではありません。

特に、shuf文字列の長さを固定することに関連しています。たとえば、次は失敗します。

shuf -i1-19 --random-source=<(echo durian)

ただし、出力をに制限すると機能しますが-n16失敗-n17します。いくつかの異なる単語と置換をテストしましたが、ソースの文字数を減らすと最大値も-n低下しました。

source length     max -n
7                 16
6                 13
5                 10
4                  8
3                  5
2                  3
1                  1
0                  0

直接的な関係はわかりませんが、おそらく追加のソート項目(-n)にはシードとしてより多くのソース文字が必要になるでしょう。ただし、少なくともshufこの最小しきい値を超えると、各追加文字はランダム性自体に影響を与えません。上記の例では、50番目の文字を変更しても出力は同じです。

答え2

はい、サイズが重要です。shuf必要なだけ大きくrandint_genmax()する必要があります。https://github.com/coreutils/coreutils/blob/master/gl/lib/randint.c使用されたシャッフリングアルゴリズムに必要なすべての乱数を派生させます(各数字は特定の範囲から選択できます)。このサイズは両方に依存します。

  • 行数を入力して
  • ランダムソースファイルのバイト値。

任意のソースファイルで1バイトを変更すると、必要な合計バイト数が変わる可能性があります。たとえば、0〜254の範囲の数字が必要な場合は、この範囲にある場合は1バイトのみを読み取るだけで十分ですが、そのバイトが "\ xff"(符号なし8ビットで255)の場合は整数)、最小1バイトを読むにはもっと多くのバイトが必要です。

これは、多数のバイトが提供されても、失敗する例を作成するために使用できます。

shuf -i1-10 --random-source=<(echo $'\xff\xff\xff\xff\xff\xff\xff\xff')
shuf: ‘/dev/fd/63’: end of file

3バイトの「ab」+改行文字で十分です。

shuf -i1-10 --random-source=<(echo ab) | md5sum
742a739ea959851f883ec692d6675cdf  -

シードで疑似ランダムソースを提供するためのコマンドライン専用のソリューションが見つかりませんでしたが、少なくともここにはbashだけを使用するドラフトソリューションがあります(以下の既知の問題を参照)。

(1) 補助スクリプトseed-and-counter.sh:

#!/bin/bash
SEED="$1"
COUNTER=0
while true; do
    echo $SEED $COUNTER
    COUNTER=$((COUNTER+1))
done

(2) 補助スクリプトbin-hash-lines.sh:

#!/bin/bash
echo "$1" | md5sum | cut -c-32 | xxd -r -p

(3)これを組み合わせて、再現可能なランダムバイトシーケンスを作成します。

./seed-and-counter.sh 320 | xargs -d'\n' -n 1 ./bin-hash-lines.sh | hexdump -C | head
00000000  02 56 8b 68 34 78 bd 98  6e 8d 42 d2 cb 7b 8d b4  |.V.h4x..n.B..{..|
00000010  7d d8 23 b9 89 f8 29 5b  6c 51 fb 9f b3 74 1d 03  |}.#...)[lQ...t..|
00000020  bc 1d 62 81 31 0b 5d 82  8c cb 37 4a b8 bc 85 70  |..b.1.]...7J...p|
00000030  88 3d 57 ae ef 77 28 aa  3a cf f7 49 ed 00 37 21  |.=W..w(.:..I..7!|
00000040  45 55 39 94 3f 30 90 49  4f f0 04 d5 1e c5 0c 1e  |EU9.?0.IO.......|
00000050  e4 e8 8e 72 84 58 3c 03  66 e5 bd af fb 87 78 6b  |...r.X<.f.....xk|
00000060  b0 40 e4 cb 6f 78 c0 90  f8 e6 0d 73 89 fe 0a 98  |[email protected]....|
00000070  04 45 39 0c e6 32 ae 26  c5 13 0e ca fb e6 bc f2  |.E9..2.&........|
00000080  49 57 65 da 79 c1 4f 03  f7 97 ec 8c 72 59 cf ac  |IWe.y.O.....rY..|
00000090  64 d6 fe 87 6e 18 5e 81  2c 9b a3 6a b5 10 12 da  |d...n.^.,..j....|

(4) ランダムソースとして使用します。

shuf -i1-1000 --random-source=<(./seed-and-counter.sh 320 | xargs -d'\n' -n 1 ./bin-hash-lines.sh) | tail
430
854
890
580
441
960
944
332
687
703

既知の問題:ヘルパースクリプトとxargsコマンドは引き続き実行されているようです。

関連情報