Slurm Job Manager でノードの CPU/スレッド使用量を確認します。

Slurm Job Manager でノードの CPU/スレッド使用量を確認します。

私はSlurm Task Managerを使用してクラスタ化されたコンピュータで作業しています。私はマルチスレッドコードを起動し、特定のノードIDのコアとスレッドの使用量を確認したいと思います。例えば、

scoreusage -N 92512

「scoreusage」は不明なコマンドです。

答え1

組み込みのSLURMツールは非常に基本的であることがわかりました。代わりに、同じものを使用してhtopリアルタイムでジョブを監視(実行中)できます。

  1. ジョブが実行されているノードを確認してください。
$ scontrol show job $JOB_ID | grep ' NodeList'
   NodeList=<HOSTNAME>
  1. sshノード入力:$ ssh <HOSTNAME>
  2. 必要に応じて監視プログラムを実行します。$ htop

答え2

スラムクラスターを運営してから数年が経ちましたが、squeue必要な結果が得られます。努力する:

squeue --nodelist 92512 -o "%A %j %C %J"

(ノード92512のジョブのジョブID、ジョブ名、CPU、およびスレッドを指定する必要があります)

ただし、特定のノードの詳細だけを特に望まない限り、ノードIDではなくジョブIDで検索する方がよいでしょう。

Googleで簡単に見つけることができるslurmの使用に関するドキュメントを含む良いサイトがたくさんあります。 HPCクラスターを実行するほとんどの大学などは、特定のクラスターのカスタマイズの詳細に基づいて、独自のドキュメントとヘルプと「チートシート」を作成します。 )が作成されました(したがって、これを考慮してクラスタに例を適用します)。使用に関する良い一般slurm文書もあります。https://slurm.schedmd.com/documentation.html

関連情報