私のソフトウェアRAID1スーパーブロックが引き続き破損しているのはなぜですか。

私のソフトウェアRAID1スーパーブロックが引き続き破損しているのはなぜですか。

RAID1のスーパーブロックが繰り返し損傷する可能性がある方法は何ですか?

過去6ヶ月間、2回もスーパーブロックの問題により、RAID1ルートアレイが使用できなくなりました。残念ながら、最初は良いメモを取ることができませんでしたが、スーパーブロックと悪い魔法に問題がありました。最近発生したように、ホストがハングしたときにいくつかのKVM VMをシャットダウンして強制的に再起動し、スーパーブロックマジックエラーでinramfsプロンプトで起動しました。

インストールの復元を放棄し、私に適した方法(ミラーリングされたLVMのアーチ)に戻る準備が整いましたが、なぜこれが起こるのかを知りたいです。私はパーティションを間違った方法で構成しましたか?ハードウェアRAIDがないと、競合や強制再起動によってスーパーブロックが破損する可能性があると仮定する必要がありますか?間違った結果ですか?それでは、mdadm、ディストリビューション、KVMに存在できますか?それとも徹底的なテストがなければ推測できませんか?

現在の競合では、関連するエラーは次のとおりです。

md1: invalid bitmap file for superblock: bad magic
md1: failed to create bitmap (-22)

これが私が始めたことです。

Gpartedリカバリディスクから起動するとmd1はありませんが、md125(3つのうち最も小さいID番号)があります。 gparted アプリケーションには表示されませんが、/dev/md125 で表示されます。実行すると、有効で失敗し、起動していないことをsudo mdadm --detail /dev/md125示す出力が表示されます。また、「スーパーブロックは一貫性がある」

私も次のことを試しました。

e2fsck -b 8193 /dev/sda2
e2fsck -b 8193 /dev/sdb2
e2fsck -b 32768 /dev/sda2
e2fsck -b 32768 /dev/sdb2

「スーパーブロックの不正なマジックナンバー」という出力が出るたびに

これは、アレイから損傷が複製されたことを意味しますか?それでは、これが起こらないようにすることができますか?

詳細:

  1. これは、それぞれ別々に購入した2つの異なるドライブのペアで発生します。
  2. ドライブは最初の損傷事象から数ヶ月間LVMでうまく機能しました。そのシステム(Arch)を撤去したときに問題があったのではなく、Ubuntu ServerとRAID1を再試行したいと思いました。
  3. コンピュータには電力変動を防ぐためにUPSが接続されていますが、私はそれを得ました。残念ながら、電源装置は接地されていませんが、これが電力サージにとって重要であり、私がいるところでは大きな問題ではないことを知っています。
  4. Ubuntu Server 18.04.2で問題が発生しました。その間、同じドライブでLVMと一緒にArchを問題なく使用していました。
  5. memtestを数回実行しましたが、エラーは発生しませんでした。
  6. ECC RAM(バッファなし)があります。
  7. システムはx399 TaichiマザーボードのRyzen Threadripper 1950xです。

要点は、ドライブ障害に対する回復力を提供して稼働時間を最大化することでしたが、その代わりにドライブは物理的に良好ですが、RAID1スーパーブロックが何とか破損しているため、稼働時間を失うようです。これがRAID1から起動したときに固有の危険ですか?

編集:実行すると、mdadm --detail /dev/mdX次の結果が表示されます。 initramfsシェルのmdadm

編集2:また、initramfsでは、/etc/mdadm/mdadm.confは次のようになります。 initramfsのmdadm.conf

Edit3: この問題は断続的に発生するようです。 Gpartedで起動しましたが、問題になっているmdデバイスを一度見て正常に戻りましたが、再起動後に再びパフォーマンスが低下しました。

編集4:gpartedでアレイを停止してgpartedで再起動すると、デバイスをバックアップして正常にマークできるようになります(ただし、インストールを起動しようとするとまだ破損します)。

Edit5:上記は偽の肯定です。ただ、md125は現在正常なパーティションの1つですが、問題のパーティションはmd126になり、まだパフォーマンスが低下しています。

Edit6: アレイの組み立てを中断するとmdadm: failed to RUN_ARRAY /dev/md126: Invalid argument RUN_ARRAY失敗

関連情報