複数フォルダのスクリプトを並列に実行

複数フォルダのスクリプトを並列に実行

高レベルのディレクトリ内に複数の子ディレクトリがあります。各サブディレクトリには複数のファイルとforループシェルスクリプトがあります。各サブディレクトリには同じforループスクリプトがあります。各サブディレクトリに移動して、複数の端末でforループスクリプトを並列に実行したいと思います。これを試しましたが、順番に実行されているようですが、すべて並列に実行したいと思います。

find dir_* -type f -execdir sh for_loop.sh {} \;

答え1

これが正しいことだと仮定します - シリアルモードでのみ:

find dir_* -type f -execdir sh for_loop.sh {} \;

これで次のように変更できます。

find dir_* -type f | parallel 'cd {//} && sh for_loop.sh {}'

複数の端末で実行するために、GNU Parallelはtmux各コマンドを独自のウィンドウで実行することをサポートしています。tmux

find dir_* -type f | parallel --tmuxpane 'cd {//} && sh for_loop.sh {}'

デフォルトでは、各CPUコアは1つのジョブを実行します。あなたの場合は、コアのタスクよりも1つ以上のタスクを実行したい場合があります。

 find dir_* -type f | parallel -j+1 --tmuxpane 'cd {//} && sh for_loop.sh {}'

GNU Parallelは、同じコンピュータまたはSSHを介してアクセスできる複数のコンピュータでタスクを並列に簡単に実行できる汎用の並列ハンドラです。

4つのCPUで32の異なるジョブを実行する場合は、並列化する簡単な方法は、各CPUで8つのジョブを実行することです。

簡単なスケジューリング

代わりに、GNU Parallel はタスクが完了すると新しいプロセスを作成し、CPU をアクティブに保つことで時間を節約します。

GNU並列スケジューリング

インストールする

セキュリティ上の理由から、パッケージマネージャを使用してGNU Parallelをインストールする必要がありますが、GNU Parallelが展開用にパッケージ化されていない場合は、rootアクセスを必要としないプライベートインストールを実行できます。これは10秒で完了できます。

$ (wget -O - pi.dk/3 || lynx -source pi.dk/3 || curl pi.dk/3/ || \
   fetch -o - http://pi.dk/3 ) > install.sh
$ sha1sum install.sh | grep 883c667e01eed62f975ad28b6d50e22a
12345678 883c667e 01eed62f 975ad28b 6d50e22a
$ md5sum install.sh | grep cc21b4c943fd03e93ae1ae49e28573c0
cc21b4c9 43fd03e9 3ae1ae49 e28573c0
$ sha512sum install.sh | grep da012ec113b49a54e705f86d51e784ebced224fdf
79945d9d 250b42a4 2067bb00 99da012e c113b49a 54e705f8 6d51e784 ebced224
fdff3f52 ca588d64 e75f6033 61bd543f d631f592 2f87ceb2 ab034149 6df84a35
$ bash install.sh

その他のインストールオプションについては、以下を参照してください。http://git.savannah.gnu.org/cgit/parallel.git/tree/README

詳細

より多くの例を見る:http://www.gnu.org/software/parallel/man.html

紹介ビデオを見る:https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1

このチュートリアルを見てください。http://www.gnu.org/software/parallel/parallel_tutorial.html

サポートを受けるには、メールリストに参加してください。https://lists.gnu.org/mailman/listinfo/parallel

答え2

おそらく最も完璧なツールはGNUパラレル:

parallel ::: dir_*/for_loop.sh

GNU Parallelは各タスクを並列に実行するだけでなく、出力を逆多重化して互いに干渉しないようにします。

マニュアルページから:

GNU Parallelは、1つ以上のコンピュータを使用してタスクを並列に実行するためのシェルツールです。ジョブは単一のコマンドでも、入力の各行に対して実行する必要がある小さなスクリプトでもかまいません。一般的な入力は、ファイルリスト、ホストリスト、ユーザーリスト、URLリスト、またはテーブルリストです。ジョブはパイプから読み取るコマンドでもかまいません。その後、GNU Parallel は入力をチャンクに分割し、チャンクを各コマンドに並列に接続できます。

現在xargsとteeを使用している場合は、GNU Parallelがxargsと同じオプションで書かれているので、GNU Parallelを使用するのは非常に簡単です。シェルでループを作成すると、GNU Parallelがほとんどのループを置き換え、複数のタスクを並列に実行してより速く実行できるようになることがわかります。

GNU並列処理は、コマンドの出力がコマンドを順次実行したときに得られるものと同じであることを保証します。これにより、GNU Parallelの出力を他のプログラムの入力として使用できます。

答え3

findあなたのためにそうしません。

スクリプトを作成し、for_loop.shスクリプトを見つけて、次のように実行します。

#!/bin/bash

for theScript in $(find dir_* -name for_loop.sh); do
  "$theScript" &
done

スクリプトをサブディレクトリ内で実行する必要がある場合cdなど、前に入力してみてくださいcd $(dirname "$theScript") && . $(basename "$theScript")

私の例は詳細にテストされておらず、フォールトトレランスはありません。

編集1:

〜のように桂里説明は正しいです。ディレクトリ名にスペースが含まれている場合、上記のスクリプトは中断されます。

だから代わりに繰り返しましたread

#!/bin/bash
find dir_* -name for_loop.sh | while IFS= read -r theScript; do
  "$theScript" &
done

答え4

最上位ディレクトリで行うことができます

for D in `find . -type d -maxdepth 1`
do 
     $D/<yourScriptName>.sh &
done

「&」はバックグラウンドで実行します。

関連情報