Lenovo Legion 5i RTX2060が頻繁に停止し、再起動します。

Lenovo Legion 5i RTX2060が頻繁に停止し、再起動します。

私は新しいラップトップを購入し(起動可能なUSB経由で)Ubuntu 20.04をインストールしようとしましたが、システムが利用できなくなる問題が引き続き発生しました。

  • すべてが停止し(マウスカーソルを含め、ctrl + alt + f1の組み合わせが機能しない)、約10秒後に再開されます。
  • ノートパソコンが突然再起動します。
  • さまざまなものがクラッシュし続けます(gnome-terminal-server、gnome-sessionなど)。これらの問題はランダムに発生し、最初の2つの問題はオペレーティングシステムのインストール中にも発生します。時にはシステムの起動直後、時には数分後に発生します。

私は数日間この問題に対して別の角度からアクセスしようとしましたが、成功しませんでした。どのような方法がより探求する価値があり、方法についてのアドバイスをいただきありがとうございます。これがハードウェアの問題である場合は、どういうわけか証明できる方法があれば良いようです。

事実:

  1. 一部のイベントは、システムログの「ハードウェアエラー」エントリに関連しているようです(ただし、問題を引き起こさないと思われる非常によく似たエントリが見つかりました)。
Oct  9 14:38:36 test-Lenovo-Legion-5-15IMH05H kernel: [  629.400829] mce: [Hardware Error]: Machine check events logged
Oct  9 14:38:36 test-Lenovo-Legion-5-15IMH05H rasdaemon[726]: rasdaemon: register inserted at db
Oct  9 14:38:36 test-Lenovo-Legion-5-15IMH05H rasdaemon[726]:            <...>-2740  [004]     0.000063: mce_record:           2020-10-09 14:38:37 +0200 bank=2, status= c000014000010019, Generic TLB Level-1 Error, mci=Error_overflow Corrected_error, mca=Generic TLB Level-1 Error, cpu_type= Intel generic architectural MCA, cpu= 4, socketid= 0, mcgstatus=0, mcgcap= c0c, apicid= 8
  1. これがハードウェアの問題であることを確認するために、ラップトップにWindows 10 Homeをインストールしました。インストールは成功し、OSはアップデートをダウンロードしてインストールするのに数時間かかり、全体的に良く見えます。プレッシャーの中でも正常に動作することを確認するために、私はウィッチャー3の約30分を含む何時間もWindowsを問題なく使用しました。

問題を診断/解決する試みのいくつかは次のとおりです。

免責事項:Linuxに関する私の理解は限られており、試行中にいくつかのチュートリアル/ガイドに従いましたが、間違った結論を導く愚かな間違いを犯した可能性があります。

  1. debファイルをダウンロードしてdpkg -i linux * .debを実行した後、起動メニューから別のカーネルを選択して別のカーネル(5.8.14および5.9-rc8)をインストールしてみましたが、役に立ちませんでした。
  2. Manjaro Gnome(カーネル5.6)をインストールしようとしましたが、成功しませんでした。 (インストール中に停止してブートできないのであきらめました。)
  3. 独自のGPUドライバなしでUbuntuをインストールしようとしたら、Nvidiaの「長期」ドライバ(v450)または「短期」ドライバ(v455)を手動でインストールしようとしたときにいくつかの実験を行いました。役に立たないと思います。
  4. Ubuntu 20.10を試してみましたが、同じ問題が発生しました。
  5. 私はArch-Linuxの最新の組み合わせを含むLinuxカーネルとNVidiaドライバのさまざまな組み合わせを試しました。
  6. 一部のリソースでは、電源装置に関する問題が発生します。私が考えた唯一のことは、DCアダプタを接続せずにラップトップを使用しようとしましたが、まだ動作が停止したり再起動したりする現象が発生しました。

丸太

inxi -F && dmesg | grep -i errorこれは、インストール中に「専用ドライバのインストール」が有効になっている少なくとも20.04の出力です。

System:    Host: test-Lenovo-Legion-5-15IMH05H Kernel: 5.4.0-48-generic x86_64 bits: 64 Desktop: Gnome 3.36.4 
           Distro: Ubuntu 20.04.1 LTS (Focal Fossa) 
Machine:   Type: Laptop System: LENOVO product: 81Y6 v: Lenovo Legion 5 15IMH05H serial: <superuser/root required> 
           Mobo: LENOVO model: LNVNB161216 v: NO DPK serial: <superuser/root required> UEFI: LENOVO v: EFCN32WW 
           date: 05/11/2020 

Battery:   ID-1: BAT0 charge: 61.4 Wh condition: 63.3/60.0 Wh (105%) 
CPU:       Topology: 6-Core model: Intel Core i7-10750H bits: 64 type: MT MCP L2 cache: 12.0 MiB 
           Speed: 800 MHz min/max: 800/5000 MHz Core speeds (MHz): 1: 800 2: 800 3: 800 4: 800 5: 800 6: 800 7: 800 8: 800 
           9: 800 10: 800 11: 800 12: 800 
Graphics:  Device-1: Intel UHD Graphics driver: i915 v: kernel 
           Device-2: NVIDIA TU106 [GeForce RTX 2060] driver: nvidia v: 450.66 
           Display: x11 server: X.Org 1.20.8 driver: modesetting,nvidia unloaded: fbdev,nouveau,vesa 
           resolution: 1920x1080~144Hz 
           OpenGL: renderer: GeForce RTX 2060/PCIe/SSE2 v: 4.6.0 NVIDIA 450.66 
Audio:     Device-1: Intel Comet Lake PCH cAVS driver: snd_hda_intel 
           Device-2: NVIDIA TU106 High Definition Audio driver: snd_hda_intel 
           Sound Server: ALSA v: k5.4.0-48-generic 
Network:   Device-1: Intel Wi-Fi 6 AX201 driver: iwlwifi 
           IF: wlp0s20f3 state: up mac: <REDACTED> 
           Device-2: Realtek RTL8111/8168/8411 PCI Express Gigabit Ethernet driver: r8169 
           IF: enp8s0 state: down mac: <REDACTED> 
Drives:    Local Storage: total: 476.94 GiB used: 8.08 GiB (1.7%) 
           ID-1: /dev/nvme0n1 vendor: Western Digital model: PC SN730 SDBQNTY-512G-1001 size: 476.94 GiB 
           ID-2: /dev/nvme1n1 vendor: SK Hynix model: HFM512GDHTNI-87A0B size: 476.94 GiB 
Partition: ID-1: / size: 468.00 GiB used: 8.01 GiB (1.7%) fs: ext4 dev: /dev/nvme0n1p2 
Sensors:   System Temperatures: cpu: 41.0 C mobo: N/A gpu: nvidia temp: 39 C 
           Fan Speeds (RPM): N/A 
Info:      Processes: 322 Uptime: 2m Memory: 31.23 GiB used: 1.32 GiB (4.2%) Shell: bash inxi: 3.0.38 
[    0.012647] [Firmware Bug]: TSC ADJUST differs within socket(s), fixing all errors
[    0.362528] ACPI BIOS Error (bug): Could not resolve symbol [\_SB.PCI0.I2C2.TPD0], AE_NOT_FOUND (20190816/dswload2-162)
[    0.362528] ACPI Error: AE_NOT_FOUND, During name lookup/catalog (20190816/psobject-220)
[    0.362528] ACPI BIOS Error (bug): Could not resolve symbol [\_SB.PCI0.I2C3.TPL1], AE_NOT_FOUND (20190816/dswload2-162)
[    0.362528] ACPI Error: AE_NOT_FOUND, During name lookup/catalog (20190816/psobject-220)
[    0.925916] RAS: Correctable Errors collector initialized.
[    6.754956] usb 1-6: device descriptor read/64, error -71
[    8.093725] EXT4-fs (nvme0n1p2): re-mounted. Opts: errors=remount-ro
[    8.399155] iwlwifi 0000:00:14.3: Direct firmware load for iwlwifi-QuZ-a0-hr-b0-50.ucode failed with error -2
[    8.399445] iwlwifi 0000:00:14.3: Direct firmware load for iwlwifi-QuZ-a0-hr-b0-49.ucode failed with error -2
[    9.295155] nvidia-gpu 0000:01:00.3: i2c timeout error e0000000
[    9.295162] ucsi_ccg: probe of 0-0008 failed with error -110

事前にありがとう

答え1

TL; DRハードウェアの問題である可能性が高いという結論に達し、ラップトップを返品することにしました。

全内容:

  • いくつかの調査の結果、Intelを使用すると1日または2日間問題が発生しなかったため、問題はNvidia GPUに関連しているという印象を受けました。
  • 友人が私に提案した。BIOSアップデート;これを行い、NVidiaドライバを更新した後、奇妙な再起動と数回のGnomeクラッシュを除いて、数日間すべてがうまくいきました。
  • ある時点でシステムアップデートをインストールすることを許可しましたが、NVidiaとIntel GPUの両方で問題がより頻繁に発生し始めました。 Nvidiaドライバが450.66.XXから450.80.02に変更されたと記録されていますが、それが正しいかどうかはわかりません。問題に関する
  • MCEエラーは、ほとんどが再起動に関連し、頻繁に発生し、常にCPU 4にあることがわかりました。これがラップトップを使用できなくする原因である可能性が最も高いと考え、戻りプロセスを開始しました。

答え2

混合グラフィックスモード(amdgpu + nvidia 550ドライバ)でLinuxを実行しているLegion Pro 5 16ARX8 82WM(R9000P)に停止の問題があります。
一つ見つけたと思います。解決策のための。
これNvidia GPUさまざまな状態にある可能性 -D3 寒さD0D3 ホット
ランダムに続けるとNvidia GPU存在するD0状態(ただ開いたNvidiaの設定パネル上電源マネージャタブ) - 停止/吊り現象が消えました。

しかし、私が許すならNvidia GPU省電力モードに切り替える(D3 寒さ状態) - 2分ごとにアプリケーションを停止します。
そしてシステムログスパムを送る人:

...
Feb 17 15:55:17 smarttop kernel: [ 9145.605086] nvidia 0000:01:00.0: Enabling HDA controller  
Feb 17 15:57:17 smarttop kernel: [ 9265.612997] nvidia 0000:01:00.0: Enabling HDA controller  
Feb 17 15:58:58 smarttop kernel: [ 9366.357103] nvidia 0000:01:00.0: Enabling HDA controller  
Feb 18 00:30:06 smarttop kernel: [37914.905083] nvidia 0000:01:00.0: Enabling HDA controller
... 

したがって、停止現象はNVIDIA HDAコントローラに関連しているようです。また、
万が一に備えてrmmod tpmGRUBメニュー項目を追加しました。

関連情報