とても簡単です。サーバーにはSSDがプライマリドライブにあり、RAIDアレイ(mdadm)がストレージ用にあります。
断続的にアレイに書き込む際に問題が発生しました。実際に使用できないほど書き込み速度が遅くなりました。
スピードテストを終え、SSDからRAIDアレイに1Gファイルをコピーするのに約1時間かかりました。
root@office:/tmp# rsync -vhr --progress test.img /mnt/raid/
sending incremental file list
test.img
1.07G 100% 301.99kB/s 0:57:52 (xfer#1, to-check=0/1)
sent 1.07G bytes received 31 bytes 309.25K bytes/sec
total size is 1.07G speedup is 1.0
RAIDアレイは大丈夫そうです。
root@office:/tmp# cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4]
md0 : active raid5 sdb[0] sdd[3] sdc[1]
5860270080 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/3] [UUU]
unused devices: <none>
そしてsyslogには何も言及されていません。
この問題に対する解決策をどこで見つけるべきですか?
PS。約1ヶ月前、私たちは雷雨のためにスイッチを交換する必要がありました。この問題もこの時から始まった。これがマザーボードやコントローラに欠陥があるのか、それとも他のものが故障したのかはわかりません。顧客にハードウェアの交換を提案する前に、確実な証拠を持っていたいと思います。
答え1
60秒ごとに同期を実行するクローンジョブがあることがわかりました。あまりにも多くのゾンビプロセスが生成され、RAIDアレイの速度が非常に遅くなりました。ストーリーのレッスン:クローンの仕事を確認してください。