Solaris 11がランダムにクラッシュする

Solaris 11がランダムにクラッシュする

今朝、ランダムにクラッシュしたSolaris 11システムがあります。マシンを物理的に再起動した後、すべてのドライブがSense Key: Soft_Errordmesgと/var/adm/messages

システムのすべてのドライブに同じソフトエラーが表示されるため、これはHBAに障害があることを意味しますか?誰のアイデアや提案がありますか?

root@solaris-machine:/var/log# iostat -E
sd0       Soft Errors: 1 Hard Errors: 0 Transport Errors: 0
Vendor: ATA      Product:       Revision: SN02 Serial No: 
Size: 500.11GB <500107862016 bytes>
Media Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 1
Illegal Request: 12 Predictive Failure Analysis: 0
sd2       Soft Errors: 1 Hard Errors: 0 Transport Errors: 0 
Vendor: ATA      Product:      Revision: 0004 Serial No:  
Size: 3000.59GB <3000592982016 bytes>
Media Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 1
Illegal Request: 0 Predictive Failure Analysis: 0 
sd4       Soft Errors: 1 Hard Errors: 0 Transport Errors: 0
Vendor: ATA      Product:      Revision: 0004 Serial No: 
Size: 3000.59GB <3000592982016 bytes>
Media Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 1 
Illegal Request: 0 Predictive Failure Analysis: 0 
sd5       Soft Errors: 1 Hard Errors: 0 Transport Errors: 0 
Vendor: ATA      Product:      Revision: 0004 Serial No: 
Size: 3000.59GB <3000592982016 bytes>
Media Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 1 
Illegal Request: 0 Predictive Failure Analysis: 0




Jan 23 10:45:02 solaris-machine scsi: [ID 107833 kern.warning] WARNING: /scsi_vhci/disk@g5000c5004dfae642 (sd4):
Jan 23 10:45:02 solaris-machine      Error for Command: <undecoded cmd 0xa1>    Error Level: Recovered
Jan 23 10:45:02 solaris-machine scsi: [ID 107833 kern.notice]        Requested Block: 0                         Error Block: 0
Jan 23 10:45:02 solaris-machine scsi: [ID 107833 kern.notice]        Vendor: ATA                                Serial Number:        
Jan 23 10:45:02 solaris-machine scsi: [ID 107833 kern.notice]        Sense Key: Soft_Error
Jan 23 10:45:04 solaris-machine scsi: [ID 107833 kern.warning] WARNING: /scsi_vhci/disk@g5000c5004dfc8db2 (sd2):
Jan 23 10:45:04 solaris-machine      Error for Command: <undecoded cmd 0xa1>    Error Level: Recovered
Jan 23 10:45:04 solaris-machine scsi: [ID 107833 kern.notice]        Requested Block: 0                         Error Block: 0
Jan 23 10:45:04 solaris-machine scsi: [ID 107833 kern.notice]        Vendor: ATA                                Serial Number:        
Jan 23 10:45:04 solaris-machine scsi: [ID 107833 kern.notice]        Sense Key: Soft_Error
Jan 23 10:45:04 solaris-machine scsi: [ID 107833 kern.notice]        ASC: 0x0 (<vendor unique code 0x0>), ASCQ: 0x1d, FRU: 0x0
Jan 23 10:45:04 solaris-machine scsi: [ID 107833 kern.warning] WARNING: /scsi_vhci/disk@g5000c5004dfd4ce3 (sd5):
Jan 23 10:45:04 solaris-machine      Error for Command: <undecoded cmd 0xa1>    Error Level: Recovered
Jan 23 10:45:04 solaris-machine scsi: [ID 107833 kern.notice]        Requested Block: 0                         Error Block: 0
Jan 23 10:45:04 solaris-machine scsi: [ID 107833 kern.notice]        Vendor: ATA                                Serial Number:
Jan 23 10:45:04 solaris-machine scsi: [ID 107833 kern.notice]        Sense Key: Soft_Error
Jan 23 10:45:04 solaris-machine scsi: [ID 107833 kern.notice]        ASC: 0x0 (<vendor unique code 0x0>), ASCQ: 0x1d, FRU: 0x0
Jan 23 10:45:07 solaris-machine scsi: [ID 107833 kern.warning] WARNING: /pci@0,0/pci15d9,664@1f,2/disk@0,0 (sd0):
Jan 23 10:45:07 solaris-machine      Error for Command: <undecoded cmd 0xa1>    Error Level: Recovered
Jan 23 10:45:07 solaris-machine scsi: [ID 107833 kern.notice]        Requested Block: 0                         Error Block: 0
Jan 23 10:45:07 solaris-machine scsi: [ID 107833 kern.notice]        Vendor: ATA                                Serial Number:
Jan 23 10:45:07 solaris-machine scsi: [ID 107833 kern.notice]        Sense Key: Soft_Error
Jan 23 10:45:07 solaris-machine scsi: [ID 107833 kern.notice]        ASC: 0x0 (no additional sense info), ASCQ: 0x0, FRU: 0x0

答え1

Solaris 11サーバーがクラッシュしたときに確認する場所は次のとおりです。

  • dmesg | less
    • これを注意深く読みなさい。ここに手がかりがあります。または、/var/adm/messagesdmesgバッファがループしている場合は、競合ログを確認してください。
  • fmadm faulty
    • これにより、ディスク、HBA、NICなど、Fault Managerが障害があると見なすすべてのデバイスが表示されます。
  • fmdump -eV
    • これにより、ハードウェアの一部に障害があるとマークされているかどうかにかかわらず、障害管理システムによって識別されたシステムのすべてのエラーが表示されます。
  • 問題のディスクがzpoolの一部である場合は、zpool scrubそのプールで実行し、zpool statusHBAまたはディスクに問題があることを示す可能性があるチェックサムエラーが表示されていることを確認してください。
  • を実行して、ダンプ設定がクラッシュダンプをキャプチャするように設定されていることを確認しますdumpadm。その出力にはsavecoreが有効になっており、競合が残っていることを示す必要があります/var/crash。システムが今朝の衝突によってクラッシュダンプを残した場合は、/var/crashクラッシュのpstackを見て、根本的な原因を特定できます。

これらの手順は、システムのクラッシュの原因を特定するのにさらに近づく可能性があります。

答え2

[もはやSolarisのエキスパートではありませんが、Linuxハードウェアに精通しています]単一のドライブであれば、そのうちの1つにエラーが発生したと思われます。しかし、これらすべては非常に怪しいことです。コントローラに何か問題があるのではないでしょうか?

最近私が見た衝突の大部分は、CPU過熱(ファンの故障、ほこり、空気循環の遮断)、グラフィックカードドライバ(特にnVidia)による二次停止によるものです。過去には停電や小規模停電も問題になっていました。

答え3

少数のソフトエラーは無視してかまいません。 Solaris は、他のオペレーティングシステムが認識していないすべてのものを賢く記録し報告します。

エラー数(再起動時リセット)を監視し、パターンを確認してください。

また、あるデバイスのソフトエラーにより、同じバス上の他のドライブの数も増えることがよくあります。しかし、あるドライブが他のドライブよりも何倍も多くの確かな勝者を持っています。

HBAエラーを示すドライブエラーの数(ソフトエラーまたはハードエラー)を見たことはありませんが、私の場合かもしれません。 HBA エラーは通常、mpt エラーなどの他のメッセージとして表示されます。

関連情報