2つの3TBディスクを持つLinux md-raid raid1アレイ(ext4 fs)があります。過去数ヶ月間、このアレイへのアクセスと読み取り時間が著しく遅くなりました。ls
レコードが20個未満のディレクトリに対する操作は、返却に2〜3分かかることがあります。
「確認中」の状態で多くの時間を費やしているように見えますが、状態が「きれい」であってもアクセスと読み取りの時間が非常に遅くなります。システムログに報告されたエラーは表示されません。注目すべき唯一のことは、FSがしばらくいっぱいになったということです。出力には以下がmdadm -D /dev/md127
表示されます。
/dev/md127:
Version : 1.2
Creation Time : Thu Jun 20 11:34:21 2019
Raid Level : raid1
Array Size : 2930132992 (2794.39 GiB 3000.46 GB)
Used Dev Size : 2930132992 (2794.39 GiB 3000.46 GB)
Raid Devices : 2
Total Devices : 2
Persistence : Superblock is persistent
Intent Bitmap : Internal
Update Time : Sun Sep 26 13:58:50 2021
State : clean
Active Devices : 2
Working Devices : 2
Failed Devices : 0
Spare Devices : 0
Consistency Policy : bitmap
Name : giles:meta (local to host giles)
UUID : 638efea5:1e7b07d2:78fec1dc:d919dccf
Events : 8359
Number Major Minor RaidDevice State
0 8 1 0 active sync /dev/sda1
1 8 17 1 active sync /dev/sdb1
この問題の原因やデバッグ提案のアイデアはありますか?新しい大容量ドライブセットにデータをコピーしていますが、48時間で301 GBしかコピーされていません。
答え1
ご回答ありがとうございます。 syslogには、sdbに関する多くのエラーを報告するsmartctl / smartdが表示されます。ドライブにmdadm --manage /dev/md127 --fail /dev/sdb1
障害が発生し()mdadm --manage /dev/md127 --remove /dev/sdb1
アレイから削除され、()数時間以内にデータを新しいアレイにコピーする作業が完了しました。
ここで私が得たレッスンは、RAID問題に関する電子メール通知を送信するようにmdadmを設定するだけでは不十分です(手動でドライブが失敗した直後にRAIDステータスに関する電子メールを送信しました)。ディスクIOパフォーマンスに何が起こっているのか疑問に思うよりも早く警告を受け取るように、smartdでいくつかの自動レポートを設定する必要があります。