bash forループを並列化し、ファイルIOに反復変数を使用する方法

bash forループを並列化し、ファイルIOに反復変数を使用する方法

次のようなbashスクリプトがあります。

N=32
for i in $(seq -f "%06g" 0 ${LAST_NUM}) # LAST_NUM is an env variable
do
  ((j=j%N)); ((j++==0)) && wait # Wait for all processes in batch to finish
  python foo1.py $i &
  python foo2.py "foo1_output${i}.file_extension" &
  python foo3.py "foo2_output${i}.file_extension" &
done

出力を確認すると、FileNotFound中間ファイルのエラーが発生しますfoo1_output${i}.file_extension。これを確認しませんでしたが、iそのループで生成されたプロセスに状態が関連付けられていない可能性があります。ループの最初のコマンドだけでなく、1つのプロセスがループの1回の反復を担当したいと思います。上記のコードに問題があるのでしょうか?それでは、この問題を解決する正しい方法は何ですか?

答え1

GNU Parallelベースのソリューションは必要ありませんが、GNU Parallelはこの種の作業用に特別に設計されているため、関連性がある可能性があります。

doit() {
  i="$1"
  python foo1.py $i
  python foo2.py "foo1_output${i}.file_extension"
  python foo3.py "foo2_output${i}.file_extension"
}
export -f doit

# This will run one job per CPU thread (e.g. 32 if your server has 32 CPU thread)
seq -f "%06g" 0 ${LAST_NUM} | parallel doit

# If you really want to force 32 in parallel:
N=32
seq -f "%06g" 0 ${LAST_NUM} | parallel -j$N doit

GNU Parallelは、同じコンピュータまたはSSHを介してアクセスできる複数のコンピュータでタスクを並列に簡単に実行できる汎用の並列ハンドラです。

4つのCPUで32の異なるジョブを実行する場合は、並列化する簡単な方法は、各CPUで8つのジョブを実行することです。

簡単なスケジューリング

代わりに、GNU Parallel はタスクが完了すると新しいプロセスを作成し、CPU をアクティブに保つことで時間を節約します。

GNU並列スケジューリング

インストールする

セキュリティ上の理由から、パッケージマネージャを使用してGNU Parallelをインストールする必要がありますが、GNU Parallelが展開用にパッケージ化されていない場合は、rootアクセスを必要としないプライベートインストールを実行できます。これは10秒で完了できます。

$ (wget -O - pi.dk/3 || lynx -source pi.dk/3 || curl pi.dk/3/ || \
   fetch -o - http://pi.dk/3 ) > install.sh
$ sha1sum install.sh | grep 883c667e01eed62f975ad28b6d50e22a
12345678 883c667e 01eed62f 975ad28b 6d50e22a
$ md5sum install.sh | grep cc21b4c943fd03e93ae1ae49e28573c0
cc21b4c9 43fd03e9 3ae1ae49 e28573c0
$ sha512sum install.sh | grep da012ec113b49a54e705f86d51e784ebced224fdf
79945d9d 250b42a4 2067bb00 99da012e c113b49a 54e705f8 6d51e784 ebced224
fdff3f52 ca588d64 e75f6033 61bd543f d631f592 2f87ceb2 ab034149 6df84a35
$ bash install.sh

その他のインストールオプションについては、以下を参照してください。http://git.savannah.gnu.org/cgit/parallel.git/tree/README

詳細

より多くの例を見る:http://www.gnu.org/software/parallel/man.html

紹介ビデオを見る:https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1

このチュートリアルを見てください。http://www.gnu.org/software/parallel/parallel_tutorial.html

この本を読んでください:https://doi.org/10.5281/zenodo.1146014

サポートを受けるには、メールリストに参加してください。https://lists.gnu.org/mailman/listinfo/parallel

関連情報