カーネル 6.5.2 による再試行なし ページエラーにより amdgpu がクラッシュするようです。

カーネル 6.5.2 による再試行なし ページエラーにより amdgpu がクラッシュするようです。

始める前に:同様の問題に対してArch Linuxフォーラムのスレッドに応答しました(https://bbs.archlinux.org/viewtopic.php?id=284076)、なぜなら私はArchにいるからです。より多くの助けを借りて、他のディストリビューションを使用している人も同じ問題があるかどうかを確認するためにここに尋ねています。

カーネルをArchリポジトリの現在の最新バージョン(つまり6.5.2-arch1以前に使用したバージョン)にアップグレードした後6.5.2-zen1、稼働時間が約5〜20分以内に発生し、システムがほとんど使用できなくなるランダムGPUクラッシュが発生しました。

システムログは次のように表示されます。

Sep 11 20:00:46 yoohyeon.dc.sidlibrary.org kernel: amdgpu 0000:07:00.0: amdgpu: [gfxhub0] no-retry page fault (src_id:0 ring:24 vmid:1 pasid:32814, for process chrome pid 4073 thread chrome:cs0 pid 4101)
Sep 11 20:00:46 yoohyeon.dc.sidlibrary.org kernel: amdgpu 0000:07:00.0: amdgpu:   in page starting at address 0x0000e38dbdd3b000 from IH client 0x1b (UTCL2)
Sep 11 20:00:46 yoohyeon.dc.sidlibrary.org kernel: amdgpu 0000:07:00.0: amdgpu: VM_L2_PROTECTION_FAULT_STATUS:0x00100430
Sep 11 20:00:46 yoohyeon.dc.sidlibrary.org kernel: amdgpu 0000:07:00.0: amdgpu:          Faulty UTCL2 client ID: IA (0x2)
Sep 11 20:00:46 yoohyeon.dc.sidlibrary.org kernel: amdgpu 0000:07:00.0: amdgpu:          MORE_FAULTS: 0x0
Sep 11 20:00:46 yoohyeon.dc.sidlibrary.org kernel: amdgpu 0000:07:00.0: amdgpu:          WALKER_ERROR: 0x0
Sep 11 20:00:46 yoohyeon.dc.sidlibrary.org kernel: amdgpu 0000:07:00.0: amdgpu:          PERMISSION_FAULTS: 0x3
Sep 11 20:00:46 yoohyeon.dc.sidlibrary.org kernel: amdgpu 0000:07:00.0: amdgpu:          MAPPING_ERROR: 0x0
Sep 11 20:00:46 yoohyeon.dc.sidlibrary.org kernel: amdgpu 0000:07:00.0: amdgpu:          RW: 0x0

私はmesa /専用ドライバ間の切り替え、mesa radeon-vulkanとamdvlk間の切り替え、Chromeが使用するセッションタイプ(X11 / Wayland)の変更、またはDE全体のセッションタイプの変更を試みました(KDE Plasmaを使用していますが、ベースクイック検索でGNOMEユーザーは同じ問題を抱えているようです。または、オンラインでどこに提案されたカーネルコマンドライン引数を追加しますかamdgpu.runpm=0?組み合わせ。特にシステムが起動しない原因になるので、これは私が望むものではないようです。amdgpu.dpm=0amdgpu.vm_update_mode=3amdgpu.dpm=0

外部モニタ(4K2K @ 60Hz)でchrome / chromium(vaapiハードウェアアクセラレーションとX11 / Waylandセッションを含むまたは除く)を使用するとき1+フルHD@60Hz1)USB-C DP Altを介して接続し、ドッキングステーションを介してHDMIに変換します。

幸いなことに、カーネルをダウングレードするとシステムが安定しているようだった6.4.12-arch1ので6.4.12-zen1、新しいカーネルが問題だと疑って、同じ問題を抱えている他の配布カーネルやkernel.orgのデフォルトカーネルがあるかどうかをここに尋ねることにしました。システムを使用可能にするために、一時的にlinux-ltsArchカーネルパッケージ(特にカーネル)を使用しています。6.1.52-1-ltsこれまでは安定していますが、初期アダプタとなり、ほぼ最新のカーネルバージョンを使い続けたいと思います。 XD

どんなアイデア、問題に対する解決策や提案も歓迎します。しかし、Archフォーラムの助けを借りて、この問題に貢献できるコミットを特定しようとしています。

時間をかけてこの質問を読んでくれてありがとう。もしそうなら、返信を送ってください!

答え1

あるようだレポートamdgpuモジュールパラメータを設定すると、amdgpu.mcbp=06.5カーネルからこのモジュールを使用しているユーザーの問題を解決できます。

また、バージョンのカーネル文書によると、パラメータamdgpu.mcbpのデフォルト値がカーネルバージョン6.5で(無効化)0から(自動)に変更されたことがわかりました。-16.4そして6.5(ページの「mcbp」項目を参照)

「中間コマンドバッファプリエンプション」を切り替えるパラメータとして説明されているので、権限関連のグラフィカルVMページエラーに言及するログを考慮すると、これが私が経験している問題の原因であると仮定します。

関連情報