最近、3つのディスクfakeRAIDアレイのRAID5メンバーの1つでIOエラーが発生しました。当時はメッセージが1つしかなかったのでそれを認識できなかった/var/log/kern.log
ので、しばらくそのパーティションでマシンを実行し続けました。
BIOS/Intel RAID管理者は問題を検出しませんでしたが、パーティションから起動することを選択したときに読み取り/
専用としてマウントされました。
これで、回復パーティションから起動し、e2fsck -c -y
そのパーティションで実行しています。 「複数宣言されたブロック」、「接続されていない inodes」、「グループ #xxx の使用可能な inode 数が間違っています」などを含む多くのエラーが発生しますkern.log
.これで、どのドライブに障害が発生したかを簡単に確認できます。
今、危険な運転はどうすればいいですか? RMAを早く受け取ると5日ほどかかるので、これまで実行中のマシンが必要でRAID5ボリュームが低下するのは良いニュースではありません!
私が見たメッセージはdmesg
次のとおりです。
ata3.00: exception Emask 0x10 SAct 0x1 SErr 0x280100 action 0x6 frozen
ata3.00: irq_stat 0x08000000, interface fatal error
ata3: SError: { UnrecovData 10B8B BadCRC }
ata3.00: failed command: READ FPDMA QUEUED
ata3.00: cmd 60/00:00:00:0b:0c/01:00:14:00:00/40 tag 0 ncq 131072 in
res 40/00:04:00:0b:0c/00:00:14:00:00/40 Emask 0x10 (ATA bus error)
ata3.00: status: { DRDY }
ata3: hard resetting link
ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
ata3.00: configured for UDMA/133
sd 2:0:0:0: [sdb]
Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
sd 2:0:0:0: [sdb]
Sense Key : Aborted Command [current] [descriptor]
Descriptor sense data with sense descriptors (in hex):
72 0b 00 00 00 00 00 0c 00 0a 80 00 00 00 00 00
14 0c 0b 00
sd 2:0:0:0: [sdb]
Add. Sense: No additional sense information
sd 2:0:0:0: [sdb] CDB:
Read(10): 28 00 14 0c 0b 00 00 01 00 00
end_request: I/O error, dev sdb, sector 336333568
ata3: EH complete
device-mapper: dm-raid45: CRITICAL: io error on device /dev/sdb in region=336329728; DEGRADING RAID set
device-mapper: dm-raid45: further device error messages suppressed
上記のエラーに基づいて、dmesg
ドライブの特定の領域だけが不良だと思うのは正しいですか?もしそうなら、これらの不良ブロックを避けながらドライブを使い続けることはできますか?私は交換が到着するまでドライブをフォーマットし、その上にアレイを再構築する傾向があります。これは悪い考えですか?
また、SMARTテストはすべてのRAIDディスクで正常に動作しているようです。
答え1
RMAを待つだけです。アレイを再フォーマットして再構築しようとすると、何らかの理由で2つの良好なディスクに追加のストレスがかかる可能性があります。サーバーの場合は、新しいディスクが到着するまで空気を循環させるためにディスクを残してください。