期待どおりに再起動、シャットダウン、および再起動すると、システムがハングします。

期待どおりに再起動、シャットダウン、および再起動すると、システムがハングします。

最近からCentos 6.4までCentos 6.5。再起動するたびに、システムDell T410 Towerはポストを介して実行され、IPv4設定を渡した後に次のことを知らせます。

PCIe Training Error: Slot 1

system halted

ここから始めるとctrl+alt+del同じエラーが発生します(毎回確認)。

Dell ESMログには、次のものが表示されます。ビデオ以降の一般的なエラー。

電源ボタンを押してから電源を入れ直すと、システムは期待どおりに起動します。

スロット1には、システムが使用するネットワークカードがあります。 (Centos 6.4を初めてインストールした後、オンボードBroadcomネットワークカードで速度と待ち時間の問題が発生し、ドライバで解決しようとしましたが、成功しなかったため、Realtekを使用して別のネットワークカードを追加しましたが、問題なくうまく機能しました。6.5アップデートまで)

私はまだLinux初心者であり、次の画面までカーネルがロードされ始めないと思うので、これがカーネルに関連しているとは思いません。こういう観点から見ればそうすべきですkernel

2.6.32-431.5.1.el6.x86_64同じ問題があり、2.6.32-431.11.2.el6.x86_64ダウングレードのために消えた追加のCIFSマウントの問題があったため、今実行しています。

uname -r
2.6.32-431.5.1.el6.x86_64

rpm -qa kernel 
kernel-2.6.32-358.23.2.el6.x86_64 
kernel-2.6.32-431.5.1.el6.x86_64 
kernel-2.6.32-358.el6.x86_64 
kernel-2.6.32-431.11.2.el6.x86_64 
kernel-2.6.32-358.14.1.el6.x86_64

再起動しても、同じ結果が表示されることを確認するために6.4カーネルにさらに戻ることを検討しています。カーネルを以前のバージョン(6.5 -> 6.4)に戻そうとすると、他のどの問題が発生する可能性があるのか​​、そうしないでください他の理由があるのか​​わかりません。一時停止メッセージの後に続行できるオプションがBIOS(どこか)にある可能性があると思いましたが…そうしてエラーが発生すると、ネットワークカードが正しく機能しないようです。

サーバーはネットワーク上のほとんどのデスクトップに対してプロキシとして機能するため、電源を切って理論をテストする時間が制限されています。これでシステムが正常に動作しているようです。手動で再起動しない限り、現在の状態では問題ないようですが、一体何が起こっているのか疑問に思います。

dmesgフラグメント:

udev: starting version 147
EDAC MC: Ver: 2.1.0 Feb 12 2014
bnx2: Broadcom NetXtreme II Gigabit Ethernet Driver bnx2 v2.2.3 (June 27, 2012)
  alloc irq_desc for 36 on node -1
  alloc kstat_irqs on node -1
bnx2 0000:01:00.0: PCI INT A -> GSI 36 (level, low) -> IRQ 36
bnx2 0000:01:00.0: setting latency timer to 64
bnx2 0000:01:00.0: firmware: requesting bnx2/bnx2-mips-09-6.2.1b.fw
bnx2 0000:01:00.0: firmware: requesting bnx2/bnx2-rv2p-09-6.0.17.fw
bnx2 0000:01:00.0: eth0: Broadcom NetXtreme II BCM5716 1000Base-T (C0) PCI Express found at mem da000000, IRQ 36, node addr a4:ba:db:12:39:24
  alloc irq_desc for 48 on node -1
  alloc kstat_irqs on node -1
bnx2 0000:01:00.1: PCI INT B -> GSI 48 (level, low) -> IRQ 48
bnx2 0000:01:00.1: setting latency timer to 64
bnx2 0000:01:00.1: firmware: requesting bnx2/bnx2-mips-09-6.2.1b.fw
bnx2 0000:01:00.1: firmware: requesting bnx2/bnx2-rv2p-09-6.0.17.fw
bnx2 0000:01:00.1: eth1: Broadcom NetXtreme II BCM5716 1000Base-T (C0) PCI Express found at mem dc000000, IRQ 48, node addr a4:ba:db:12:39:25
r8169 Gigabit Ethernet driver 2.3LK-NAPI loaded
  alloc irq_desc for 41 on node -1
  alloc kstat_irqs on node -1
r8169 0000:02:00.0: PCI INT A -> GSI 41 (level, low) -> IRQ 41
r8169 0000:02:00.0: setting latency timer to 64
  alloc irq_desc for 62 on node -1
  alloc kstat_irqs on node -1
r8169 0000:02:00.0: irq 62 for MSI/MSI-X
r8169 0000:02:00.0: eth2: RTL8168c/8111c at 0xffffc90000c76000, 00:e0:4d:1a:12:76, XID 1c2000c0 IRQ 62
r8169 0000:02:00.0: eth2: jumbo features [frames: 6128 bytes, tx checksumming: ko]
ACPI Error: No handler for Region [IPMI] (ffff8801ad4ec420) [IPMI] (20090903/evregion-319)
ACPI Error: Region IPMI(7) has no handler (20090903/exfldio-295)
ACPI Error (psparse-0537): Method parse/execution failed [\_SB_.PMI0._GHL] (Node ffff8801ad4eb4c0), AE_NOT_EXIST
ACPI Error (psparse-0537): Method parse/execution failed [\_SB_.PMI0._PMC] (Node ffff8801ad4eb560), AE_NOT_EXIST
ACPI Exception: AE_NOT_EXIST, Evaluating _PMC (20090903/power_meter-759)

答え1

システムのあるスロットに欠陥があるか、再起動後にネットワークカード自体に問題があるようです。マザーボードから電源が切れ、電源ボタンを有効にして再起動すると、カードの状態が消去され、この状態で正常に起動できます。

信じられないかもしれませんが、過去にハードウェアが「ホット」状態を終了することはできませんでしたが、コールド状態では起動できた同様の問題を見ました。

とにかくハードウェアをすぐに交換したいです。

編集#1

全体を見ながらDell PowerEdge T410 ユーザーガイドこのセクションでは、さまざまなエラーメッセージと回避策に関する提案を表示します。

50ページから抜粋

                    SS#1

この表によると、私の推奨事項と一致しているようです。システムの電源を切り、最初のスロットのネットワークカードをリセットして、エラー/問題が消えていることを確認してください。そうでない場合は、NICに障害があるか、マザーボードのスロット#1に障害がある可能性があります。

関連情報