
CentOS 7.2を実行するTesla GPUのペアと32コアのシミュレーションを実行するための輝く新しいサーバーがあります。複数のユーザーがキューに追加され、以前のジョブが完了したときに実行されたジョブをサーバーに送信できることを願っています。 PBS / TORQUEのような優先順位のシステムとタイムラインの種類を使用することをお勧めしますが、単一のクラスタではなく単一のシステム用です。単一のシステムに対してTORQUEをインストールして構成できることはわかっていますが、これは過度のようです。理論的には、スケジューラはタスクが完了したりタイムアウトしたときにのみ実行する必要があります。おそらく独自のスクリプトセットを作成できます。しかし、解決策がすでに存在するかどうか疑問に思います。
答え1
TaskSpoolerを考えてみましょう -http://viric.name/soft/ts/。
「at」のように動作するように見えますが、すべてを同じ順次キューに入れます。
答え2
HTCコンドルスタンドアロンインストールを優れたサポートするクラスタソフトウェアです。minicondor
スタンドアロン設定のために特別にDockerイメージも提供します。https://htcondor.readthedocs.io/en/latest/getting-htcondor/for-docker.html
ただし、Dockerなしでインストールすることもできます。
~から公式ウェブサイト:
HTCondorは、小規模から大規模まで、さまざまなネットワーク規模で使用できます。単一のシステムでは、HTCondorは監視ツールとして機能し、ユーザーが他の目的でシステムを使用しているときにタスクを一時停止し、システムを再起動したときにタスクを再開できます。
HTCondorはRed Hatで部分的に開発されたため、CentOSなどのRPMベースのディストリビューションをうまくサポートしています。