mceパニック@4.18カーネルが@5.15カーネルを通過するのはなぜですか？

Question 1

以下に示すいくつかの事実に基づいて、私の作業理論は、修正されていないハードウェアメモリエラー（UHME）が発生してNMIが発生したことです。 NMI処理中にページ障害が発生しました。プリエンプションの数を増やすと、作業順序の問題が発生したり、nmi_handler内でページエラーを受け入れるバグがある可能性があります。

CentOS 4.18.0.348のコードは、メインラインLinux 4.18.0のコードベースとは大きく異なります。 5.x バージョンの多くの機能が CentOS 4.18.0.x にバックポートされました。このコードはRedHatでのみレビューされたため、エラーが発生する可能性が高くなります。

私の研究の意見は、図がイベントの流れを示していることです。

ユーザーモードeinj_mem_uc。
nmi_enter() を起動します。 in_nmi() は preempt_count_add() が true に設定されるまで false です。
nmi ハンドラは内部で NMI 割り込み処理を開始します。
ページフォルトが発生し、ページフォルトハンドラにジャンプします。
ページフォルトハンドラはin_nmi（）をtrueに保ち、iretで終了します。
Intel iret の欠陥により、in_nmi() 値が false にクリアされます。
ハンドラ内のin_nmi（）がfalseのhmiハンドラを返します。
nmi ハンドラは、BUG_ON(!in_nmi()) チェックをトリガーする nmi_exit を返します。
これによりパニックが発生し、停止または再開します。

私はメインライン4.18.1が5.15カーネルのように動作すると思います。

最初は別のソースコードの操作を完了しました。質問。

Answer

以下に示すいくつかの事実に基づいて、私の作業理論は、修正されていないハードウェアメモリエラー（UHME）が発生してNMIが発生したことです。 NMI処理中にページ障害が発生しました。プリエンプションの数を増やすと、作業順序の問題が発生したり、nmi_handler内でページエラーを受け入れるバグがある可能性があります。

CentOS 4.18.0.348のコードは、メインラインLinux 4.18.0のコードベースとは大きく異なります。 5.x バージョンの多くの機能が CentOS 4.18.0.x にバックポートされました。このコードはRedHatでのみレビューされたため、エラーが発生する可能性が高くなります。

私の研究の意見は、図がイベントの流れを示していることです。

ユーザーモードeinj_mem_uc。
nmi_enter() を起動します。 in_nmi() は preempt_count_add() が true に設定されるまで false です。
nmi ハンドラは内部で NMI 割り込み処理を開始します。
ページフォルトが発生し、ページフォルトハンドラにジャンプします。
ページフォルトハンドラはin_nmi（）をtrueに保ち、iretで終了します。
Intel iret の欠陥により、in_nmi() 値が false にクリアされます。
ハンドラ内のin_nmi（）がfalseのhmiハンドラを返します。
nmi ハンドラは、BUG_ON(!in_nmi()) チェックをトリガーする nmi_exit を返します。
これによりパニックが発生し、停止または再開します。

私はメインライン4.18.1が5.15カーネルのように動作すると思います。

最初は別のソースコードの操作を完了しました。質問。

Question 2

コメントと回答をして疑ったように最初の関連質問通常、二重エラーが発生します。ここに追加します。トリプルがあるかもしれません。 (4.18から減少)

4.18の場合にのみ（このカーネルオプションは5.7でのみ利用可能であるため）、カーネルの.configファイルで設定を確認することをお勧めします。CONFIG_二重エラーこれにより、デュアルエラー例外ハンドラが有効になります。
（注注：このオプションを無効にすると、白髪が増える可能性があります。;-））設定しないと、カーネルは状況を処理できず、自動的に再起動します。
設定した場合、実際には4.18でトリプル失敗に直面します。（少なくとも2番目のトレースダンプが開始されると予想していたので、これは可能ではないと思います。）=> CONFIG_DOUBLEFAULTが4.18構成に設定されていないようです。

5.15では、なぜこれが起こらないのですか？:

5.8以降、x32アーキテクチャがデュアルエラーを処理する以前の方法を維持している場合、x86_64アーキテクチャは次の機能の利点を享受できます（i386では利用できません）。割り込みスタックテーブル。これにより、デュアルエラーやNMIなどの指定されたイベントに対して新しいスタックに自動的に切り替えることができます。
初期メモリエラーはスタック（原子コンテキストで予約されています）に関連しているため、トレースダンプではデュアルエラーが発生し、バックトレースダンプではトリプルエラーが発生します。
x86_64の5.8以降、メモリエラーなしで新しいスタックに切り替える可能性は、デュアルエラーをシームレスに処理するのに役立ちます。

Answer

コメントと回答をして疑ったように最初の関連質問通常、二重エラーが発生します。ここに追加します。トリプルがあるかもしれません。 (4.18から減少)

4.18の場合にのみ（このカーネルオプションは5.7でのみ利用可能であるため）、カーネルの.configファイルで設定を確認することをお勧めします。CONFIG_二重エラーこれにより、デュアルエラー例外ハンドラが有効になります。
（注注：このオプションを無効にすると、白髪が増える可能性があります。;-））設定しないと、カーネルは状況を処理できず、自動的に再起動します。
設定した場合、実際には4.18でトリプル失敗に直面します。（少なくとも2番目のトレースダンプが開始されると予想していたので、これは可能ではないと思います。）=> CONFIG_DOUBLEFAULTが4.18構成に設定されていないようです。

5.15では、なぜこれが起こらないのですか？:

5.8以降、x32アーキテクチャがデュアルエラーを処理する以前の方法を維持している場合、x86_64アーキテクチャは次の機能の利点を享受できます（i386では利用できません）。割り込みスタックテーブル。これにより、デュアルエラーやNMIなどの指定されたイベントに対して新しいスタックに自動的に切り替えることができます。
初期メモリエラーはスタック（原子コンテキストで予約されています）に関連しているため、トレースダンプではデュアルエラーが発生し、バックトレースダンプではトリプルエラーが発生します。
x86_64の5.8以降、メモリエラーなしで新しいスタックに切り替える可能性は、デュアルエラーをシームレスに処理するのに役立ちます。

Question 3

私はカーネルとは関係がなく、古いカーネルの代わりに最新のカーネルでそのメモリアドレスに到達するハードウェアメモリのバグだけだと思います。記憶力テストをしたことがありますか？

Answer

私はカーネルとは関係がなく、古いカーネルの代わりに最新のカーネルでそのメモリアドレスに到達するハードウェアメモリのバグだけだと思います。記憶力テストをしたことがありますか？

Question 4

BUG_ON(true)カーネルBUGを引き起こすようです。invalid opcode 0000

このような場合、

BUG_ON(!in_nmi());

このダンプをトリガーします。

Answer

BUG_ON(true)カーネルBUGを引き起こすようです。invalid opcode 0000

このような場合、

BUG_ON(!in_nmi());

このダンプをトリガーします。

mceパニック@4.18カーネルが@5.15カーネルを通過するのはなぜですか？

答え1

答え2

答え3

答え4

関連情報