zpoolの1つのドライブに障害があると思われますが、4つのドライブが表示されますか?

zpoolの1つのドライブに障害があると思われますが、4つのドライブが表示されますか?

私と私の友人のためにサーバーが動作しています。私たちはUbuntu 18.04 LTSサーバーを使用してプライマリブートドライブでゲームをホストし、RAIDZ2プールを使用してそのゲーム、音楽、映画などのバックアップを保存します。

毎週2週間ごとに誤ったプールと多くの読み取り/書き込みエラーが発生します。

me@server:/$ zpool status NAS
pool: NAS
state: ONLINE
status: One or more devices are faulted in response to IO failures.
action: Make sure the affected devices are connected, then run 'zpool 
clear'.
see: http://zfsonlinux.org/msg/ZFS-8000-HC
scan: scrub repaired 0B in 3h19m with 0 errors on Sun Aug 11 07:14:28 2019
config:

    NAME        STATE     READ WRITE CKSUM
    NAS         ONLINE       0   511     0
      raidz2-0  ONLINE       0   200     0
        sdc     ONLINE       0     0     0
        sdd     ONLINE       0     0     0
        sde     ONLINE       3   224     0
        sdf     ONLINE      12   225     0
        sdg     ONLINE       3   226     0
        sdh     ONLINE       3   227     0
    spares
      sdb       AVAIL

これらのエラーはデータを失うことはなく、クリーンアップによってプールからバイトを回復する必要もありません。プールをファイルシステムに再マウントするには、常にコンピュータを再起動する必要があります。何ヶ月も同じパターンを経験しています。これを見ると、1つのディスクが不良であるか(sdf)、実際にはすべてのディスクにエラーが発生し、事前エラーの兆候が表示されるようです。 SMARTを使用してディスクセルフテストを実行すると、常に問題は発生せず、コンピュータをリセットしてテストを実行した後もドライブに問題が表示されませんでした。障害が発生した場合に役に立つと予想してホットスペアを割り当てました。この時点で、私はドライブsdfをsdbに交換し、問題が解決したかどうかを確認する必要があると思いました。

したがって、私の質問は、デフォルトで複数のドライブのプールにこのようなエラーが表示された場合、すべてのドライブは常にエラーの前の状態にありますか?それとも、冗長アルゴリズムが原因で、1つの不良ディスクが別のドライブにエラーを「伝播」しますか?

編集:コメントに追加されましたが、可視性のためにここにも追加されました。中古ドライブを全部買いました。これらはすべて回路基板に直接接続されています。正確な設定は覚えていませんが、マザーボードにはポートの3分の2を処理するチップが2つあり、残りはIntelサウスブリッジが処理するようです。ハードウェアRAIDコントローラがありません。 sd [cd]ではエラーは発生せず、残りの4つでのみエラーが発生し、常にこのモードになります。ほとんどは[f]、あまり[egh]で、ほぼ同じです。

答え1

同時に、複数のドライブで障害が発生するたびに、特にドライブが同じコントローラにある場合は、コントローラまたはケーブルの接続を最初に疑う必要があります。高品質のSATAケーブルもかなり安価であるため、1つまたは2つのドライブのケーブルを交換して違いがないかどうかを確認することをお勧めします。両端がしっかりと挿入されていることを確認してください。

ディスクがSMARTデータを正しく正直に報告していると仮定すると(すべてのコンシューマークラスのディスクとは異なります)、SMART属性199を確認してデータケーブル接続の問題を確認できますUDMA_CRC_Error_Count。この数が増加する場合、特にオペレーティングシステムがストレージエラーを報告するのと同時に増加する場合、データケーブル接続に問題がある可能性があります。プロパティ184度のEnd-to-End_Error情報を提供できます。

通常、、、Reallocated_Sector_Ctおよび変更されていない限り、Reallocated_Event_CountCurrent_Pending_SectorOffline_Uncorrectableおそらく問題はディスク自体ではなく、配線やコントローラが問題を引き起こすことです。私が想像できる唯一の状況は、それが所定の位置にありますが、ディスクに問題がある可能性がある場所はヘッドソートの問題ですが、そのような場合にはいくつかのエラーしか発生しません。

まだ行っていない場合は、時間が経つにつれてSMARTデータの傾向を追跡できるようにシステムを設定するのも悪いことではありません。私は時間のスナップショットと「以前は価値が高くても低くなかったのですか?」という気持ちよりも傾向がより多くの情報を提供することを見つける傾向があります。

関連情報