[58306.633900] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
[58306.633905] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
[58306.633907] {1}[Hardware Error]: event severity: corrected
[58306.633909] {1}[Hardware Error]: Error 0, type: corrected
[58306.633911] {1}[Hardware Error]: fru_text: CorrectedErr
[58306.633912] {1}[Hardware Error]: section_type: memory error
[58306.633914] {1}[Hardware Error]: node: 0 device: 44696
[58306.633916] {1}[Hardware Error]: error_type: 2, single-bit ECC
これは私のDebian Xeonサーバーに登場しました。エラー訂正コードメモリ、RAMモジュールが死んでいるという意味ですか、それとも別の問題(例えばSWによるエラー)ですか?私は見たその他の投稿彼のOSは再起動されたが、私のOSは再起動されなかったと主張したので、私は尋ねた。ありがとうございます。
答え1
ECCメモリエラーは、常にソフトウェアエラーではなくハードウェアエラーです。これは彼らが表示するという意味ではありません。失敗するハードウェアの場合、ランダムなビットフリップが原因で発生する可能性があります。 (このトピックに関するGoogleの2009年の論文は、興味深い洞察を提供します。;引用はより最近の分析を提供できます。 )
ハードウェアビットフリップできるソフトウェアによってトリガーされた、例えば ローハマー攻撃で。
ECCエラーが頻繁に発生または修正できないECCエラーが表示されない限り、心配する必要はありません。