Solaris 11がランダムにクラッシュする

Question 1

Solaris 11サーバーがクラッシュしたときに確認する場所は次のとおりです。

dmesg | less
- これを注意深く読みなさい。ここに手がかりがあります。または、/var/adm/messagesdmesgバッファがループしている場合は、競合ログを確認してください。
fmadm faulty
- これにより、ディスク、HBA、NICなど、Fault Managerが障害があると見なすすべてのデバイスが表示されます。
fmdump -eV
- これにより、ハードウェアの一部に障害があるとマークされているかどうかにかかわらず、障害管理システムによって識別されたシステムのすべてのエラーが表示されます。
問題のディスクがzpoolの一部である場合は、zpool scrubそのプールで実行し、zpool statusHBAまたはディスクに問題があることを示す可能性があるチェックサムエラーが表示されていることを確認してください。
を実行して、ダンプ設定がクラッシュダンプをキャプチャするように設定されていることを確認しますdumpadm。その出力にはsavecoreが有効になっており、競合が残っていることを示す必要があります/var/crash。システムが今朝の衝突によってクラッシュダンプを残した場合は、/var/crashクラッシュのpstackを見て、根本的な原因を特定できます。

これらの手順は、システムのクラッシュの原因を特定するのにさらに近づく可能性があります。

Answer

Solaris 11サーバーがクラッシュしたときに確認する場所は次のとおりです。

dmesg | less
- これを注意深く読みなさい。ここに手がかりがあります。または、/var/adm/messagesdmesgバッファがループしている場合は、競合ログを確認してください。
fmadm faulty
- これにより、ディスク、HBA、NICなど、Fault Managerが障害があると見なすすべてのデバイスが表示されます。
fmdump -eV
- これにより、ハードウェアの一部に障害があるとマークされているかどうかにかかわらず、障害管理システムによって識別されたシステムのすべてのエラーが表示されます。
問題のディスクがzpoolの一部である場合は、zpool scrubそのプールで実行し、zpool statusHBAまたはディスクに問題があることを示す可能性があるチェックサムエラーが表示されていることを確認してください。
を実行して、ダンプ設定がクラッシュダンプをキャプチャするように設定されていることを確認しますdumpadm。その出力にはsavecoreが有効になっており、競合が残っていることを示す必要があります/var/crash。システムが今朝の衝突によってクラッシュダンプを残した場合は、/var/crashクラッシュのpstackを見て、根本的な原因を特定できます。

これらの手順は、システムのクラッシュの原因を特定するのにさらに近づく可能性があります。

Question 2

[もはやSolarisのエキスパートではありませんが、Linuxハードウェアに精通しています]単一のドライブであれば、そのうちの1つにエラーが発生したと思われます。しかし、これらすべては非常に怪しいことです。コントローラに何か問題があるのではないでしょうか？

最近私が見た衝突の大部分は、CPU過熱（ファンの故障、ほこり、空気循環の遮断）、グラフィックカードドライバ（特にnVidia）による二次停止によるものです。過去には停電や小規模停電も問題になっていました。

Answer

[もはやSolarisのエキスパートではありませんが、Linuxハードウェアに精通しています]単一のドライブであれば、そのうちの1つにエラーが発生したと思われます。しかし、これらすべては非常に怪しいことです。コントローラに何か問題があるのではないでしょうか？

最近私が見た衝突の大部分は、CPU過熱（ファンの故障、ほこり、空気循環の遮断）、グラフィックカードドライバ（特にnVidia）による二次停止によるものです。過去には停電や小規模停電も問題になっていました。

Question 3

少数のソフトエラーは無視してかまいません。 Solaris は、他のオペレーティングシステムが認識していないすべてのものを賢く記録し報告します。

エラー数（再起動時リセット）を監視し、パターンを確認してください。

また、あるデバイスのソフトエラーにより、同じバス上の他のドライブの数も増えることがよくあります。しかし、あるドライブが他のドライブよりも何倍も多くの確かな勝者を持っています。

HBAエラーを示すドライブエラーの数（ソフトエラーまたはハードエラー）を見たことはありませんが、私の場合かもしれません。 HBA エラーは通常、mpt エラーなどの他のメッセージとして表示されます。

Answer

少数のソフトエラーは無視してかまいません。 Solaris は、他のオペレーティングシステムが認識していないすべてのものを賢く記録し報告します。

エラー数（再起動時リセット）を監視し、パターンを確認してください。

また、あるデバイスのソフトエラーにより、同じバス上の他のドライブの数も増えることがよくあります。しかし、あるドライブが他のドライブよりも何倍も多くの確かな勝者を持っています。

HBAエラーを示すドライブエラーの数（ソフトエラーまたはハードエラー）を見たことはありませんが、私の場合かもしれません。 HBA エラーは通常、mpt エラーなどの他のメッセージとして表示されます。

関連情報