一般化する:次のエラーメッセージの意味を正確に理解しようとしています。
[17016.923750] {4}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
[17016.923758] {4}[Hardware Error]: It has been corrected by h/w and requires no further action
[17016.923759] {4}[Hardware Error]: event severity: corrected
[17016.923761] {4}[Hardware Error]: Error 0, type: corrected
[17016.923762] {4}[Hardware Error]: fru_text: CorrectedErr
[17016.923764] {4}[Hardware Error]: section_type: memory error
詳細:
Intel(R) Xeon(R) CPU E3-1275 v3 @ 3.50GHz
私はArch Linux()を実行するCPUを搭載したサーバーを持っています3.18.6-1-ARCH #1 SMP PREEMPT Sat Feb 7 08:44:05 CET 2015 x86_64 GNU/Linux
。
実行すると、dmesg
上記のエラーが表示されます。これらのエラーは一般的ではありませんが、常に発生しているようです。たとえば、サーバーは最後の再起動から1日間実行され、ログにはこのエラーの9つのインスタンスが一覧表示されます。
別の質問を見ました。このエラーについてお問い合わせくださいまた、問題がECCメモリ障害であるという回答もあります。
私の質問は次のとおりです
1)このエラーメッセージがECCメモリに関連しているという考えを裏付ける参考資料はありますか?
2)DIMMにエラーがある場合は、どのDIMMであるかを確認するための推奨方法はありますか? memtest86+を実行してみましたが、メモリエラーは報告されませんでした。
3)オペレーティングシステムがECCエラーが修正されたと報告した場合、これは実際にDIMMに障害があることを意味しますか?
唯一の問題が私のログファイルのいくつかのメッセージであれば、それは心配しません。しかし、時にはサーバーが予期せず中断されることがあります。研究機械なので、安定性は生産システムほど重要ではありません。デバイスがまだ応答しない場合は、問題がある可能性があります。だから、このエラーメッセージが正確に何を意味するのか知りたいのですが。部品を交換する必要がある場合は、どの部品を交換する必要があるかを知る方法があります。
編集する
現在のサーバーは8日間中断せずに実行され、ログに148個のこのエラーメッセージが表示されています。また、次のメッセージのインスタンスが表示されます。
[671211.188084] EDAC MC0: INTERNAL ERROR: csrow value is out of range (6 >= 4)
[671211.188333] EDAC MC0: 1 CE ie31200 CE on unknown memory (channel:1 page:0x0 offset:0x0 grain:0 syndrome:0xc8)
DIMMの1つに問題があるようです。特に、どのDIMMに問題があるかを調べるために、これらのメッセージを解釈する方法を知っている人がいるかどうかを知りたいです。
答え1
ちなみに私も同様の問題を経験しているようです。 Xeonにあり、Debianは最近WheezyからJessieにアップグレードされました。
解決策は、メモリを削除して再インストールすることで、すべてが正常に戻りました。
答え2
私が知る限り、このエラーは正常です。 UEFIに関連しています。バグを削除するにはカーネルの変更が必要ですが、明らかに無害です。