sortとawkに関連するパイプがファイルからランダムな行を取得している間、ディスクにあまりにも多くのファイルを書き込んで、最終的に使用できないストレージが原因で失敗します。

Question

私はなぜこのアプローチをとるのか本当に理解していません。rand()再初期化されず、おそらく常に正確に同じ出力を提供するので、とにかく動作しないと思います。試してみてください：

 $ for i in {1..10}; do awk -v i=$i 'BEGIN{print "Try "i",rand="rand()}'; done
Try 1,rand=0.924046
Try 2,rand=0.924046
Try 3,rand=0.924046
Try 4,rand=0.924046
Try 5,rand=0.924046
Try 6,rand=0.924046
Try 7,rand=0.924046
Try 8,rand=0.924046
Try 9,rand=0.924046
Try 10,rand=0.924046

とにかくすべてが複雑すぎるようです。以下を使用できますshuf。

bcftools view file.vcf.gz | shuf -n 100 > newfile.vcf

これにより、入力から100行がランダムに選択されます。もちろん、これは有効なVCFファイルではなく、ヘッダが必要です。したがって、有効なVCFを生成するには、各ファイルにヘッダーを追加してから、ヘッダーではなくN行をランダムに選択します。

zgrep '^#' file.vcf.gz > newfile.vcf &&
zgrep -v '^#' file.vcf.gz | shuf -n 100 >> newfile.vcf

あるいは、圧縮されていないテキストを書かない方が良いでしょう。

zgrep '^#' file.vcf.gz | bgzip > newfile.vcf.gz &&
zgrep -v '^#' file.vcf.gz | shuf -n 100 | bgzip >> newfile.vcf.gz

Answer 1

私はなぜこのアプローチをとるのか本当に理解していません。rand()再初期化されず、おそらく常に正確に同じ出力を提供するので、とにかく動作しないと思います。試してみてください：

 $ for i in {1..10}; do awk -v i=$i 'BEGIN{print "Try "i",rand="rand()}'; done
Try 1,rand=0.924046
Try 2,rand=0.924046
Try 3,rand=0.924046
Try 4,rand=0.924046
Try 5,rand=0.924046
Try 6,rand=0.924046
Try 7,rand=0.924046
Try 8,rand=0.924046
Try 9,rand=0.924046
Try 10,rand=0.924046

とにかくすべてが複雑すぎるようです。以下を使用できますshuf。

bcftools view file.vcf.gz | shuf -n 100 > newfile.vcf

これにより、入力から100行がランダムに選択されます。もちろん、これは有効なVCFファイルではなく、ヘッダが必要です。したがって、有効なVCFを生成するには、各ファイルにヘッダーを追加してから、ヘッダーではなくN行をランダムに選択します。

zgrep '^#' file.vcf.gz > newfile.vcf &&
zgrep -v '^#' file.vcf.gz | shuf -n 100 >> newfile.vcf

あるいは、圧縮されていないテキストを書かない方が良いでしょう。

zgrep '^#' file.vcf.gz | bgzip > newfile.vcf.gz &&
zgrep -v '^#' file.vcf.gz | shuf -n 100 | bgzip >> newfile.vcf.gz

sortとawkに関連するパイプがファイルからランダムな行を取得している間、ディスクにあまりにも多くのファイルを書き込んで、最終的に使用できないストレージが原因で失敗します。

答え1

関連情報