
リモートサーバーのCUDAで実行されているプロセスがあり、ある時点でstderrに何も記録せずにプロセスが終了します。 stdoutに頻繁に書き込むので、ログを見ていつ中断したかを確認できます。
確認してみるとdmesg
停電/var/log/syslog
中は何も起こりませんでした。
さらに、他のプロセスもCUDA、他のGPUで実行されており、問題なく実行され続けます。
これが私に起こったのは今回が初めてではなく、私はまだ何が間違っているのかを識別する方法を知りません。他に確認できるものはありますか?
私はUbuntu 18.04とCUDA 10.0を実行しており、プロセスはPythonとpytorchで書かれています。