
私の設定は次のとおりです。
- AMDライゼン9 7950X 16コア
- ギガバイトX670Eアロスマスター
- DDR5 Corsair Revenge 5200MHz 16GB
- PNY NVIDIA GeForce RTX 4080
Windows 11とUbuntu 23.04のデュアルブートがあります。 Windowsがうまく動作します。 Linux、すべて電源を入れ直した後(「コールドブート」など)、コンピュータの電源を入れると数分で動作が停止します。ハンギングは、私がやっているすべてのタスクで画面が停止し、何も起こらないことを意味します。キーボードも同様です。コンピュータのハードウェアリセットを実行する必要があります。時には数分後にそれ自体が再起動することがあります。
再起動した後は、問題なく一日中働くことができました。私はコンピュータの電源を入れ、ログインし、再起動してみました。絶対、とにかく凍結しなければならない。
私が確認した他のもの:
DDR5モジュールが2つありましたが、そのうちの1つに欠陥があり、削除しました。とにかく失敗の問題は、WindowsとLinuxで異なる場合があります。
RAMモジュールを別のスロット(A2からB2など)に移動します。
memtest86+を数回実行してください。
グラフィックカード用の専用ドライバを削除しました。現在、私はデフォルトのオープンソースxserver-xorg-video-nouveau(GPUアクセラレーションなし)を使用しています。
xorgとwaylandを切り替えてみてください
いくつかのシステムログ(dmesg、syslog、xorg)を確認しましたが、関連項目が見つかりませんでした(少なくとも私には!)。
最新のパッケージバージョンにアップデート
Ubuntuを最初から再インストール
BIOSを最新バージョンにアップデートしてください。
pcie_aspm=off
カーネルオプションが追加されました。
この説明が正しい方向に進むのに役立ちますか?停止の原因を見つけるにはどうすればよいですか?ログファイルで何を見つけるべきですか?
修正する
Artem S. Tashkinovユーザーのおかげで、システムはまだアクティブで停止中にSSH接続を許可することがわかりました。
dmesg
GPUが犯人であることを明らかに指摘しています。
ここ私はこれがnvidiaのバグのようであることを読んだ。なぜなら - ユーザーと同じように - 1. 私が何をしても、まったく活動がないときにも発生します(したがって、hot / psの理由はありません)。 2. 再起動後、一日中うまく動作します。 3. Windowsではまったく問題はありません。
私はそれと一緒に暮らすべきですか?それとも修正する方法はありますか?
答え1
dmesgのエラーと判断すると、NVIDIAドライバはGPUを物理的に「失った」。 Linuxシステムにはもう存在しません。
これらのエラーは、GPUに何らかの誤動作があることを示している可能性があります。
- 再インストールしてみてください。 (取り外した後、あまりにも大きな圧力をかけずにしっかりと取り付け直してください。)
- PSUをより強力なモデルに置き換えてください
- GPUの電源ケーブルがコネクタにしっかりと接続されていることを確認してください。
- ファンが回転していることを確認してください。
nvidia-smi
テキスト出力を見ると良いでしょう。 - WindowsでOCCT(GPU / PSUテスト)を実行してみてください。
- 最後に、最新のLinuxドライバ(作成時にバージョン530.41.03)を実行していることを確認してください。