深刻なZFS問題をデバッグ/解決する方法は?

深刻なZFS問題をデバッグ/解決する方法は?

ホームデータサーバーを構築し、ドライブ自体を除くほぼすべての部品を交換しました。

CentOSでソフトウェアRAIDを使用し始めたところ、2年間、5つのドライブシリーズがRAID 0で完全に実行されています。これはRAIDを実行する最も危険な方法です。残りの5つのドライブは最初の5つと同じで、同じ配置に属し、常にRAID 5構成で最初にソフトウェアRAIDを使用し、再構築後にZFSを使用します。数ヶ月間不満のないサービスを受けた後、セットは定期的にあきらめ、やや驚くべき方法でオフラインになりました。

ドライブは外部エンクロージャに組み込まれており、最初は多重化されたeSATAを介して接続され、現在は多重化されたUSB3を介して接続されています。

最初は、問題が安いシャーシ/マルチプレクサにある可能性があると考え、2つのシャーシ間でRAID 0とRAID 5アレイの5つのドライブを交換しました。 RAID 0は引き続き完全に実行され、RAID 5ではこれらの定期的な中断が発生し続けます。

最初のヒントは、問題がグループ内のドライブの1つにあることでしたが、5つのドライブのうち他のドライブよりも問題のあるドライブはありませんでした。そのため、RAID 5にケースの動作を引き起こす奇妙な電源要件があるかどうか疑問に思って別のケースに投資しました。今回はUSB 3接続ボックスです。 USB3はeSATAよりはるかに積極的です。

このように、この方式は現在まで6ヶ月間安定的に運営されている。端末から5つの連続したメッセージを受け取りました:

WARNING: Your hard drive is failing
Device: /dev/sda [SAT], unable to open device
WARNING: Your hard drive is failing
Device: /dev/sdb [SAT], unable to open device
WARNING: Your hard drive is failing
Device: /dev/sdc [SAT], unable to open device
WARNING: Your hard drive is failing
Device: /dev/sdd [SAT], unable to open device
WARNING: Your hard drive is failing
Device: /dev/sde [SAT], unable to open device

ボックス、マルチプレクサ接続、PCIe eSATA拡張ボードを削除しましたが、問題は次のとおりです。〜しなければならないドライブと一緒ですが、すべてを捨てない限り、デバッグ方法がわかりません。最初に発生したときは、zpool statusすべてのドライブでほぼ同じエラーが発生し、奇妙なことにすべてアルファベット順に並べられていました。

zpoolをクリアして再同期し、しばらくの間すべてが大丈夫で応答を停止しました。spool status端末は実際に停止し、Ctrl + Cの影響を受けません。

新しい情報:

/dev/sda-e自発的に名前をに変更し、/dev/sda1-e1読み書きすることがないため、ドライブボックスを再起動しました。デバイスが消えて期待どおりに再表示されますが、1名前にはまだサフィックスがあります。

更新:(2017年6月3日)

使用Oracleドキュメント私はそれをfailmode次のように設定しようとしましたcontinue

zpool set failmode=continue tank

このモードでは定期的に継続

WARNING: Your hard drive is failing
Device: /dev/sda [SAT], unable to open device

そしてアレイのドライブはすべて書き込みエラーを生成します。

   NAME                        STATE     READ WRITE CKSUM
    tank                        ONLINE       0    16    59
      raidz1-0                  ONLINE       0    32   118
        ata-WDC_WDC_WD10-68...  ONLINE       0    14     0
        ata-WDC_WDC_WD10-68...  ONLINE       0    12     0
        sda                     ONLINE       0    12     0
        ata-WDC_WDC_WD10-68...  ONLINE       0    12     0
        ata-WDC_WDC_WD10-68...  ONLINE       0    14     0

errors: 67 data errors, use '-v' for a list

ただし、この時点では少なくともzpoolが生きており、端末を無期限に停止したり、他のプールを停止したりしません。

興味深いことに、すべてのドライブで書き込み操作でのみエラーが発生し、エラー数は非常に同じでした。

答え1

メッセージが送信されるためスマート通知システムはデバイスにアクセスできません。お勧めします。調査まず、ハードウェアの問題のように見えるドライブの問題です。

zfsこれについて私たちができることは何もありません。障害のあるハードドライブ(またはケーブルまたはコントローラ)を交換した後、zfsプールを復元することができます。

関連情報