私のコンピュータのGPU関連の問題を解決しようとしてきました。現在、GPUはいくつかのトレーニング作業を非常にうまく実行できます。ただし、入力するとERRに移動しますnvidia-smi
。それなら何が起こってもsudo -kill 9 PID
。
GPUを再起動しようとすると、他のプロセスがGPUを使用しているため、再起動できないというメッセージが表示されます。これを終了することはできないようです。この問題が引き続き発生して再起動すると、問題は解決したようですが、いくつかのトレーニングの後に問題が再発生します。主な問題は、ほとんどの場合SSHを介して自分のコンピュータに接続されているため、再起動すると、誰かが自分のコンピュータの電源を入れるように要求するか、自分で実行する必要があることです。
私のコンピュータのオペレーティングシステムはManjaroです。しかし、Ubuntu 22.04でも同様の問題がありました。
CUDA error: unspecified launch failure
GPUは1年になり、再起動するとトレーニングできたため、これがハードウェアに関連したものだとは思わない。
私のコンピュータの仕様は次のとおりです。
- CPU: インテル i9-13900K/KF 5.8GHz
- マザーボード: MSI PRO Z690-A DDR4
- メモリ:64GB DDR4 3200Mhz 2x32GB
- 電源: Corsair RM1000 80+ Gold Modular
このマシンには別のGPUであるRTX 2080 TIもあります。
この問題に対する解決策はありますか?想像できるように、これはワークフローにとって非常に懸念されている問題です。
最高、ルカ
答え1
GPUは1年になり、再起動するとトレーニングできたため、これがハードウェアに関連したものだとは思わない。
そうかもしれません。
- PSUの確認/交換(電圧関連)、GPUの再インストール、温度の確認、電源コードの再接続。
- 最新のリリースドライバ(現在550.54.14)をインストール/使用してみてください。
- ここでもこの質問をしてください。https://forums.developer.nvidia.com/c/gpu-graphics/linux/148