私はCentosクラスタを使用しており、Nvidia GPUを他の人と共有しています。クラスタ内の各ノードには4つのGPUがあります。私は4つのGPUを定期的に監視し、GPUの利用可能なRAMが事前定義されたしきい値を超えたときに(bash / python)スクリプトを実行する方法を探しています。
出力を解析することは可能でなければならないと思いますnvidia-smi
が、私にはやや複雑に聞こえます。
この問題を解決する方法を知っている人はいますか?
私はCentosクラスタを使用しており、Nvidia GPUを他の人と共有しています。クラスタ内の各ノードには4つのGPUがあります。私は4つのGPUを定期的に監視し、GPUの利用可能なRAMが事前定義されたしきい値を超えたときに(bash / python)スクリプトを実行する方法を探しています。
出力を解析することは可能でなければならないと思いますnvidia-smi
が、私にはやや複雑に聞こえます。
この問題を解決する方法を知っている人はいますか?