ファイルのサブセットをランダムにサンプリングする方法

Question 1

コマンドshuf（coreutilsの一部）で次のことができます。

shuf -n 1000 file

少なくとも今は非古代バージョン（追加）2013年からの約束）、これは適切な場合はリポジトリサンプリングを使用します。つまり、メモリが不足してはならず、高速アルゴリズムを使用していることを意味します。

Answer

コマンドshuf（coreutilsの一部）で次のことができます。

shuf -n 1000 file

少なくとも今は非古代バージョン（追加）2013年からの約束）、これは適切な場合はリポジトリサンプリングを使用します。つまり、メモリが不足してはならず、高速アルゴリズムを使用していることを意味します。

Question 2

お持ちの場合とても大きいファイル（サンプリングの一般的な理由）で、以下を見つけることができます。

「正確に」n本のサンプルラインが必要ない場合あなたはできますサンプリング比このように：

cat input.txt | awk 'BEGIN {srand()} !/^$/ { if (rand() <= .01) print $0}' > sample.txt

これ使用永久メモリ、ファイルの1％をサンプリングします（ファイルの行数がわかっている場合は、この要素を調整してほぼ限られた数の行をサンプリングできます）。どんなサイズにも適していますしかし、そのファイル〜しないだろう返す精密行数は統計的比率にすぎません。

Answer

お持ちの場合とても大きいファイル（サンプリングの一般的な理由）で、以下を見つけることができます。

「正確に」n本のサンプルラインが必要ない場合あなたはできますサンプリング比このように：

cat input.txt | awk 'BEGIN {srand()} !/^$/ { if (rand() <= .01) print $0}' > sample.txt

これ使用永久メモリ、ファイルの1％をサンプリングします（ファイルの行数がわかっている場合は、この要素を調整してほぼ限られた数の行をサンプリングできます）。どんなサイズにも適していますしかし、そのファイル〜しないだろう返す精密行数は統計的比率にすぎません。

Question 3

@Txangelの確率ソリューションに似ていますが、100倍高速です。

perl -ne 'print if (rand() < .01)' huge_file.csv > sample.csv

高性能で正確なサンプルサイズが必要で、ファイルの末尾にサンプル間隔を許可したい場合は、次のようにできます（1mラインファイルから1000ラインサンプリング）。

perl -ne 'print if (rand() < .0012)' huge_file.csv | head -1000 > sample.csv

..または実際には、2番目の例の方法を代わりに接続してくださいhead。

Answer

@Txangelの確率ソリューションに似ていますが、100倍高速です。

perl -ne 'print if (rand() < .01)' huge_file.csv > sample.csv

高性能で正確なサンプルサイズが必要で、ファイルの末尾にサンプル間隔を許可したい場合は、次のようにできます（1mラインファイルから1000ラインサンプリング）。

perl -ne 'print if (rand() < .0012)' huge_file.csv | head -1000 > sample.csv

..または実際には、2番目の例の方法を代わりに接続してくださいhead。

Question 4

ヘッダー行を保存し、サンプルがファイルのおおよその割合になる可能性があるときにawkを使用するのが好きです。非常に大きなファイルの場合：

awk 'BEGIN {srand()} !/^$/ { if (rand() <= .01 || FNR==1) print > "data-sample.txt"}' data.txt

Answer

ヘッダー行を保存し、サンプルがファイルのおおよその割合になる可能性があるときにawkを使用するのが好きです。非常に大きなファイルの場合：

awk 'BEGIN {srand()} !/^$/ { if (rand() <= .01 || FNR==1) print > "data-sample.txt"}' data.txt

関連情報