A100システムには、停止してもメモリを割り当て続けるゾンビプロセスがあることがよくあります。私は通常、fuser -v /dev/nvidia*
すべてのプロセスのPIDを決定し、使用または終了するためにこれkill
を使用しますfuser -k /dev/nvidia*
。
fuser
結果を返すには常に時間がかかります。ただし、現在は合理的な時間に応答せず、コマンドは無期限にfuser -v
中断されます。fuser -k
たとえば、前回は週末に実行しましたが、戻りませんでした。最後にサーバーを再起動しました。
fuser -v /dev/nvidia0
のような異常な行動を示していますlsof /dev/nvidia0
。オンラインでこの質問を探してみると、上記のゾンビプロセスの問題に対する答えだけが得られ、停止したときの状況を具体的に扱う質問はありませんでしfuser
たlsof
。
マシンを再起動せずにこの問題を理想的にデバッグ/解決するにはどうすればよいですか?
システムはUbuntu 20.04を実行します。