GPUに十分なメモリがある場合は、新しいスクリプトを起動します。

2024-6-3 • tag-icon

私はCentosクラスタを使用しており、Nvidia GPUを他の人と共有しています。クラスタ内の各ノードには4つのGPUがあります。私は4つのGPUを定期的に監視し、GPUの利用可能なRAMが事前定義されたしきい値を超えたときに（bash / python）スクリプトを実行する方法を探しています。

出力を解析することは可能でなければならないと思いますnvidia-smiが、私にはやや複雑に聞こえます。

この問題を解決する方法を知っている人はいますか？

関連情報