mdadmの失敗は明示的な状態ですか？

Question 1

まだ最終段階ではありません。リカバリデバイスを試してみてください--re-add。失敗したすべてのデバイスを自動的に再追加するバリエーションもあります。

mdadm --re-add /dev/md1 faulty

カーネルログは、ドライブが故障とマークされた理由を示します。 SMART状態にUDMA CRCエラーがあるようです。次のコマンドを使用して、ドライブの拡張エラーログを表示することもできます。

smartctl -x /dev/sde

これはエラーの性質を示す必要があります。

Error 10 [9] occurred at disk power-on lifetime: 31192 hours (1299 days + 16 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER -- ST COUNT  LBA_48  LH LM LL DV DC
  -- -- -- == -- == == == -- -- -- -- --
  40 -- 51 00 00 00 00 73 30 a5 58 40 00  Error: UNC at LBA = 0x7330a558 = 1932567896

  Commands leading to the command that caused the error were:
  CR FEATR COUNT  LBA_48  LH LM LL DV DC  Powered_Up_Time  Command/Feature_Name
  -- == -- == -- == == == -- -- -- -- --  ---------------  --------------------
  60 05 00 00 e0 00 00 73 30 a1 00 40 08 13d+02:07:12.334  READ FPDMA QUEUED
  60 00 08 00 d8 00 00 03 d3 aa c0 40 08 13d+02:07:12.334  READ FPDMA QUEUED
  60 05 00 00 d0 00 00 73 30 9c 00 40 08 13d+02:07:12.327  READ FPDMA QUEUED
  60 00 08 00 c8 00 00 03 d3 a9 90 40 08 13d+02:07:12.327  READ FPDMA QUEUED
  60 05 00 00 c0 00 00 73 30 97 00 40 08 13d+02:07:12.321  READ FPDMA QUEUED

（私のSMARTテストドライブの1つから）。

Answer

まだ最終段階ではありません。リカバリデバイスを試してみてください--re-add。失敗したすべてのデバイスを自動的に再追加するバリエーションもあります。

mdadm --re-add /dev/md1 faulty

カーネルログは、ドライブが故障とマークされた理由を示します。 SMART状態にUDMA CRCエラーがあるようです。次のコマンドを使用して、ドライブの拡張エラーログを表示することもできます。

smartctl -x /dev/sde

これはエラーの性質を示す必要があります。

Error 10 [9] occurred at disk power-on lifetime: 31192 hours (1299 days + 16 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER -- ST COUNT  LBA_48  LH LM LL DV DC
  -- -- -- == -- == == == -- -- -- -- --
  40 -- 51 00 00 00 00 73 30 a5 58 40 00  Error: UNC at LBA = 0x7330a558 = 1932567896

  Commands leading to the command that caused the error were:
  CR FEATR COUNT  LBA_48  LH LM LL DV DC  Powered_Up_Time  Command/Feature_Name
  -- == -- == -- == == == -- -- -- -- --  ---------------  --------------------
  60 05 00 00 e0 00 00 73 30 a1 00 40 08 13d+02:07:12.334  READ FPDMA QUEUED
  60 00 08 00 d8 00 00 03 d3 aa c0 40 08 13d+02:07:12.334  READ FPDMA QUEUED
  60 05 00 00 d0 00 00 73 30 9c 00 40 08 13d+02:07:12.327  READ FPDMA QUEUED
  60 00 08 00 c8 00 00 03 d3 a9 90 40 08 13d+02:07:12.327  READ FPDMA QUEUED
  60 05 00 00 c0 00 00 73 30 97 00 40 08 13d+02:07:12.321  READ FPDMA QUEUED

（私のSMARTテストドライブの1つから）。

Question 2

fail修正不可能な読み取りエラー（UCE）のため、mdadmがドライブを編集した可能性があります。カーネルログから関連情報を取得できます（ grep about を試みますsde）。

つまり、これは明確な状態ではありません。エラーは、高速書き込みや破損したケーブルなど、いくつかの一時的な要因が原因で発生する可能性があります。

最良の方法は、ハードドライブメーカーのツールを使用して分析して修復することです。しかし、最近のHDDでは、次の手順を試してみることができます。私は過去数年間でこの段階をうまく使用してきました。ドライブ中：

注意：このコマンドを使用すると、/ dev / sdeドライブのすべてのデータが失われます。

SMART長期テストを開始してください。smartctl -t long /dev/sde
すべてのドライブをゼロにクリア：（dd if=/dev/zero of=/dev/sdeこれは、リカバリルーチン中に実際に多くのHDDメーカーツールが実行する操作です。）
ドライブを再パーティションする
ドライブをアレイに再追加

理想的には、[1]ポイントはセクターが失敗するポイントでなければなりません。。完全な損傷から該当する部門。

Answer