私たちの研究グループは、いくつかのNVIDIA Titan Xグラフィックスカードとかなり多くのCPUコアを含むディープラーニング用のコンピューティングサーバーを実行しています。ここが研究室であり、このマシンを使用する人が10人ほどという点を考慮すると、CPU/GPUコアの負荷はほぼ常に高いです。
今、私はマシンが過度に使用されていることを示す責任があり、ハードウェアのアップグレードをお勧めします。議論のために、コンピュータのCPU / GPU / MEMの使用に関する詳細な記録を作成したいと思います。問題は、作業に適したツールがわからないことです。もちろん、いくつかのスクリプトを書くこともできますが、私はシステム管理者ではないので、既製のツールを好みます。 :)CPU / GPUの使用量を監視するために通常nvidia-smi
およびを使用しhtop
ますが、これは長期記録を生成するのには適していません。
このような歴史を作るためのアドバイスはありますか?