xargsを使用した並列処理

xargsを使用した並列処理

各行でbashスクリプトを並列に実行するには?デフォルトでは、ログファイルを追跡し、見つかった各行に対して以下の例のようにバックグラウンドでスクリプトを実行しようとします。

tailf logfile.log | grep 'patternline' | while read line ; do 
    bash scriptname.sh "$line" & ; 
done

上記の操作を以下を使用して行う方法を知りたいです。パラメータ(または他の適切な方法)並列性とプロセスを制限する方法。

よろしくお願いします。

答え1

GNU Parallelはパラメータを正確に引用します:

tail -f logfile.log | grep 'patternline' |
  parallel bash scriptname.sh

最も重要なのは、デフォルト値がCPUコアごとに1つのプロセスであり、2つの並列ジョブの出力が混在しないことを保証することです。

GNU Parallelは、同じコンピュータまたはSSHを介してアクセスできる複数のコンピュータでタスクを並列に簡単に実行できる汎用の並列ハンドラです。多くの場合for、ループを置き換えることができます。

4つのCPUで32の異なるジョブを実行する場合は、並列化する簡単な方法は、各CPUで8つのジョブを実行することです。

簡単なスケジューリング

代わりに、GNU Parallel はタスクが完了すると新しいプロセスを作成し、CPU をアクティブに保つことで時間を節約します。

GNU並列スケジューリング

インストールする

ディストリビューションにGNU Parallelがパッケージされていない場合は、rootアクセスなしでプライベートインストールを実行できます。これは10秒で完了できます。

$ (wget -O - pi.dk/3 || lynx -source pi.dk/3 || curl pi.dk/3/ || \
   fetch -o - http://pi.dk/3 ) > install.sh
$ sha1sum install.sh | grep 883c667e01eed62f975ad28b6d50e22a
12345678 883c667e 01eed62f 975ad28b 6d50e22a
$ md5sum install.sh | grep cc21b4c943fd03e93ae1ae49e28573c0
cc21b4c9 43fd03e9 3ae1ae49 e28573c0
$ sha512sum install.sh | grep da012ec113b49a54e705f86d51e784ebced224fdf
79945d9d 250b42a4 2067bb00 99da012e c113b49a 54e705f8 6d51e784 ebced224
fdff3f52 ca588d64 e75f6033 61bd543f d631f592 2f87ceb2 ab034149 6df84a35
$ bash install.sh

その他のインストールオプションについては、以下を参照してください。http://git.savannah.gnu.org/cgit/parallel.git/tree/README

詳細

より多くの例を見る:http://www.gnu.org/software/parallel/man.html

紹介ビデオを見る:https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1

このチュートリアルを見てください。http://www.gnu.org/software/parallel/parallel_tutorial.html

サポートを受けるには、メールリストに参加してください。https://lists.gnu.org/mailman/listinfo/parallel

答え2

xargsマニュアルを読んで、-Lその中の記号を見つけてください。-P

tail -f logfile.log | grep 'patternline' |
xargs -P 4 -L 1 bash scriptname.sh

これは一度に最大4つのコマンドインスタンスを実行し(-P 4)、各呼び出しは1行の入力を使用します(-L 1)。

何が実行されているかを見るには-t追加してください。xargs

関連情報