私はSlurm Task Managerを使用してクラスタ化されたコンピュータで作業しています。私はマルチスレッドコードを起動し、特定のノードIDのコアとスレッドの使用量を確認したいと思います。例えば、
scoreusage -N 92512
「scoreusage」は不明なコマンドです。
答え1
組み込みのSLURMツールは非常に基本的であることがわかりました。代わりに、同じものを使用してhtop
リアルタイムでジョブを監視(実行中)できます。
- ジョブが実行されているノードを確認してください。
$ scontrol show job $JOB_ID | grep ' NodeList'
NodeList=<HOSTNAME>
ssh
ノード入力:$ ssh <HOSTNAME>
- 必要に応じて監視プログラムを実行します。
$ htop
答え2
スラムクラスターを運営してから数年が経ちましたが、squeue
必要な結果が得られます。努力する:
squeue --nodelist 92512 -o "%A %j %C %J"
(ノード92512のジョブのジョブID、ジョブ名、CPU、およびスレッドを指定する必要があります)
ただし、特定のノードの詳細だけを特に望まない限り、ノードIDではなくジョブIDで検索する方がよいでしょう。
Googleで簡単に見つけることができるslurmの使用に関するドキュメントを含む良いサイトがたくさんあります。 HPCクラスターを実行するほとんどの大学などは、特定のクラスターのカスタマイズの詳細に基づいて、独自のドキュメントとヘルプと「チートシート」を作成します。 )が作成されました(したがって、これを考慮してクラスタに例を適用します)。使用に関する良い一般slurm
文書もあります。https://slurm.schedmd.com/documentation.html