次のエラーメッセージが表示されます。
Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: AER: Multiple
Corrected error received: id=0018 Nov 15 15:49:52 x99 kernel: pcieport
0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer,
id=0018(Receiver ID) Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0:
device [8086:6f08] error status/mask=00000040/00002000 Nov 15 15:49:52
x99 kernel: pcieport 0000:00:03.0: [ 6] Bad TLP
これらの問題が(今まで)修正されても、パフォーマンスの低下が発生する可能性があります。明らかに、この問題は解決する必要があります。しかし、インターネットではこれに関する多くの情報を見つけることができませんでした。 (たぶん私は間違った場所を探しているかもしれません)。
このエラーについてもっと知っている人はいますか?
マザーボードですか、Samsung 950 Proですか、それともGPU(またはそれらの組み合わせ)ですか?
ハードウェアはM2のAsus X99 Deluxe II Samsung 950 Pro NVMeです。 MBのスロット(共有PCIeポート3)PCIeポート3には他のものは接続されていません。 PCIeスロット1のGeForce GTX 1070 Core i7 6850K CPU
私が見つけたいくつかのリンクには、同じハードウェア(X99 Deluxe II mbとSamsung950 Pro)があります。私はアーチLinuxを使用しています。
これまでJournalctlや検索したい他の場所では、文字列 "8086:6f08"が見つかりませんでした。
nvme ssd関連の奇妙なエラーメッセージ(無効なTLP):linuxquestionshttps://www.reddit.com/r/linuxquestions/comments/4walnu/odd_error_message_with_nvme_ssd_bad_tlp/
PCIe:あなたのカードがTLP再送と静かに戦っていますか?http://billauer.co.il/blog/2011/07/pcie-tlp-dllp-retransmit-data-link-layer-error/
無効なTLP PCIeバスエラーが発生するGTX 1080 - GeForce Forumshttps://forums.geforce.com/default/topic/957456/gtx-1080-throwing-bad-tlp-pcie-bus-errors/
ドライバー - dmesgログのPCIeエラー - Ubuntu Q&Ahttps://askubuntu.com/questions/643952/pcie-error-in-dmesg-log
780Ti X99ハードロック - PCIEエラー - NVIDIA開発者フォーラム https://devtalk.nvidia.com/default/topic/779994/linux/780ti-x99-hard-lock-pcie-errors/
答え1
何が起こっているのかを完全に説明することはできませんが、少なくともいくつかの詳細を提供できます。
たとえば、説明されているようにここ、CPUは次のようにPCIeバスコントローラと通信します。トランザクション層パケット(TLP)。ハードウェアはエラーを検出し、Linuxカーネルはそれをメッセージとして報告します。
カーネルオプションは、pci=nommconf
カーネル2.6以降、Linuxで利用可能なメモリマッピングPCI構成スペースを無効にします。概して、すべてのPCIデバイスにはデバイスを説明する領域があります(ご覧のようにlspci -vv
)。その領域にアクセスする元の方法はI / Oポートを介することであり、PCIeを使用すると、このスペースをメモリにマッピングしてより簡単にアクセスできます。
これはこの特別な場合です何PCIeコントローラがこの方法を使用して特定のデバイスの構成スペースにアクセスすると、エラーが発生します。これは、デバイスのハードウェアのバグ、マザーボードのPCIeルートコントローラのハードウェアのバグ、2つの間の特定の対話のハードウェアのバグなどです。
を使用すると、pci=nommconf
すべてのデバイスの構成スペースに元の方法でアクセスされます。アクセス方法を変更すると、この問題を解決できます。したがって、必要に応じて問題を解決して抑制できます。
答え2
同じエラーが発生します(8086:6f08デバイスに関連した無効なTLP)。私はX99 Deluxe II、Samsung 960 pro、Nvidia 1080 tiを持っています。これらの問題は、X99チップセットやSamsung ProなどのM.2デバイスに関連しているようです。
X99 Deluxe IIマザーボードは、PCIE16_3スロットとM.2 / U.2の間で帯域幅を共有します。 @Nicの意見に従ってBIOSでオンボードデバイスを設定するU.2_2 帯域幅を自動から U.2_2 に変更しました。これは私の問題を解決しました。
答え3
カーネルコマンドラインオプションを追加することでpci=nommconf
問題が解決しました。だから問題はマザーボードにあると思います。そのことが起こった。みんなマイコンピュータにはX99マザーボードがあります。 Z170システムや私が持っている他のハードウェアではこれは起こりません。
答え4
x99-EのBiosでPCIE16_3スロット設定をデフォルトのM.2デバイス対応自動モードではなくx8モードに静的に設定するように変更しました。 PCIe 1x〜16x拡張ボードを介して接続された2枚の1070GTXカードがTLPエラーなしで正常に動作するようになりました。
ポート16_3を最初に使用せずにテストのためにそのスロットに移動しましたが、BIOSを変更する前にまだ問題がありました。また、鉱山労働者の構成では、すべてのカードのbsleep設定を30に変更しました。
変更する前に、カーネルログにエラーがいっぱいでした。また、変更の前後にシステムを再起動してみました。かなり粘り強いようです。