パターンに基づいてN行のランダムサンプルを抽出します。

Question 1

行はクラス別にグループ化されているので、（gnuツールを使用して）splitファイルを複数の部分に分割し、--fiterオプションを使用して各部分をパイプすることができますshuf。窒素その中のランダムな行：

分割 --filter='shuf -n窒素'内部ファイル>外部ファイル

デフォルトsplitは1000行です。これはこの特別な場合に必要なものです。要件が変更されたら、行数を渡す必要があります。たとえば、-l
これを200行に分割し、各行からランダムに30行をインポートする必要があります。

split -l 200 --filter='shuf -n 30' infile > outfile

Answer

行はクラス別にグループ化されているので、（gnuツールを使用して）splitファイルを複数の部分に分割し、--fiterオプションを使用して各部分をパイプすることができますshuf。窒素その中のランダムな行：

分割 --filter='shuf -n窒素'内部ファイル>外部ファイル

デフォルトsplitは1000行です。これはこの特別な場合に必要なものです。要件が変更されたら、行数を渡す必要があります。たとえば、-l
これを200行に分割し、各行からランダムに30行をインポートする必要があります。

split -l 200 --filter='shuf -n 30' infile > outfile

Question 2

awkこれを行うには、コマンドを一度だけ呼び出すだけです。

n = 1000行ごとにp = 50行をランダムに選択します。

awk -v n=1000 -v p=50 '
  BEGIN {srand(); remaining = p}
  NR > n {remaining = p; NR = 1}
  rand()*(n + 1 - NR) < remaining {
    print; remaining--
  }' < your-file

Answer

awkこれを行うには、コマンドを一度だけ呼び出すだけです。

n = 1000行ごとにp = 50行をランダムに選択します。

awk -v n=1000 -v p=50 '
  BEGIN {srand(); remaining = p}
  NR > n {remaining = p; NR = 1}
  rand()*(n + 1 - NR) < remaining {
    print; remaining--
  }' < your-file

パターンに基づいてN行のランダムサンプルを抽出します。

答え1

答え2

関連情報