この間、Linuxサーバーに影響を与えるLVMリセットデバイスにバグがありました。
kernel: hpsa 0000:02:00.0: scsi 0:1:0:1: resetting logical Direct-Access HP LOGICAL VOLUME RAID-1(+0) SSDSmartPathCap- En- Exp=1
kernel: hpsa 0000:02:00.0: device is ready.
現在のSCSIディスクより低い。
[0:0:0:0] storage HP P420i 6.68 -
[0:1:0:0] disk HP LOGICAL VOLUME 6.68 /dev/sda
[0:1:0:1] disk HP LOGICAL VOLUME 6.68 /dev/sdb
[1:0:0:0] tape HP Ultrium 4-SCSI U57D /dev/st0
[2:0:0:0] cd/dvd hp DVD A DU8D4SH MHE4 /dev/sr0
また、ディスクを確認した結果、ハードウェア障害も検出されませんでした。
Smart Array P420i in Slot 0 (Embedded)
Note: Predictive Spare Activation Mode is enabled, physical drives that are in predictive failure state will not be available for use as data or spare drives.
(sn: 00143803620FFA0)
Port Name: 1I
Port Name: 2I
Internal Drive Cage at Port 1I, Box 1, OK
Internal Drive Cage at Port 2I, Box 1, OK array A (SAS, Unused Space: 0 MB)
logicaldrive 1 (279.4 GB, RAID 1, OK)
physicaldrive 1I:1:1 (port 1I:box 1:bay 1, SAS, 300 GB, OK)
physicaldrive 1I:1:2 (port 1I:box 1:bay 2, SAS, 300 GB, OK)
physicaldrive 1I:1:3 (port 1I:box 1:bay 3, SAS, 300 GB, OK, spare)
array B (SAS, Unused Space: 0 MB)
logicaldrive 2 (558.7 GB, RAID 1+0, OK)
physicaldrive 1I:1:4 (port 1I:box 1:bay 4, SAS, 300 GB, OK)
physicaldrive 2I:1:5 (port 2I:box 1:bay 5, SAS, 300 GB, OK)
physicaldrive 2I:1:6 (port 2I:box 1:bay 6, SAS, 300 GB, OK)
physicaldrive 2I:1:7 (port 2I:box 1:bay 7, SAS, 300 GB, OK)
physicaldrive 2I:1:8 (port 2I:box 1:bay 8, SAS, 300 GB, OK, spare)
SEP (Vendor ID PMCSIERA, Model SRCv8x6G) 380 (WWID: 500143803620FFAF)
このエラーはサーバーの1つでのみ検出され、他のサーバーでも同じ問題は発生しませんでした。
すべてのテーマでハードウェアエラーが発生し、HPハードウェアエラーが見つからなかったため、問題の修正を検索する方法を見つけようとしています。
答え1
これはLVMとは関係ありません。これは、ハードウェアRAIDコントローラによって作成された論理ディスクに関連しています。残念なことに、HPはLVM用語に似ている名前を選択しました。
2番目のログメッセージ(「デバイスが準備済み」)は、エラー状態が自動的に消去されたことを示します。
ハードウェアRAIDコントローラは、HP(E)SmartアレイP420iです。ファームウェアのバージョンは6.68であるように見えます。その後、ファームウェアのバージョンで修正されたいくつかの既知の問題があります。
2017年11月の最新ファームウェアバージョンは8.32です。ここでダウンロード可能。最新バージョンの主な修正は次のとおりです。
RAIDスタックスレッドは、デフォルトのコードファームウェアから返された完了のためにキューをポーリングするため、コードをロックせずにライブロック状態でシステムが応答を停止することがあります。
これがあなたが見ている問題のようです。したがって、RAIDコントローラのファームウェアを利用可能な最新バージョンにアップデートすると、根本的な原因を解決できます。インストール手順をお読みくださいアップデートを開始する前に。
ディスクコントローラが応答を停止すると、コントローラの種類に関係なく、Linuxカーネルは自動的に最初にリセットを試みます。あなたの場合は、RAIDコントローラのブロックを正常に解除し、システムのクラッシュを防ぐようです。つまり、これは有効な解決策ですが、それに依存することは明らかに理想的ではありません。特にこのようなことが繰り返し発生する場合にはさらにそうです。
HPEでは、P420iは廃止された製品であると述べています。つまり、もはや新製品として製造および販売されていません。現在、ファームウェアのバージョンは2015年10月にリリースされたため、RAIDコントローラは現在約8年になるようです。大企業は、その時代の重要なx86サーバーを老化という理由だけで廃棄することを真剣に考えます。これらの古いサーバーに対するサプライヤーのサポートは、非常に高価であり、/またはスペアパーツを時期的に提供することが困難になるため、現在のハードウェアほど効果的ではないためです。
スペアパーツを調達できるような多くの類似サーバーがある場合は、エラーを直接処理することもできます。そうでなければ、良いバックアップと実行可能な計画があることを願っています。いつ(いいえもし)サーバーの一部のコンポーネントは最終的に失敗します。