エラーが発生するかどうかを確認するために、毎週クリーニングするzpool(3x 3TB Western Digital Red 3個)があり、システムログにエラーが発生し続けます。
Jul 23 14:00:41 server kernel: [1199443.374677] ata2.00: exception Emask 0x0 SAct 0xe000000 SErr 0x0 action 0x0
Jul 23 14:00:41 server kernel: [1199443.374738] ata2.00: irq_stat 0x40000008
Jul 23 14:00:41 server kernel: [1199443.374773] ata2.00: failed command: READ FPDMA QUEUED
Jul 23 14:00:41 server kernel: [1199443.374820] ata2.00: cmd 60/02:c8:26:fc:43/00:00:f9:00:00/40 tag 25 ncq 1024 in
Jul 23 14:00:41 server kernel: [1199443.374820] res 41/40:00:26:fc:43/00:00:f9:00:00/40 Emask 0x409 (media error) <F>
Jul 23 14:00:41 server kernel: [1199443.374946] ata2.00: status: { DRDY ERR }
Jul 23 14:00:41 server kernel: [1199443.374979] ata2.00: error: { UNC }
Jul 23 14:00:41 server kernel: [1199443.376100] ata2.00: configured for UDMA/133
Jul 23 14:00:41 server kernel: [1199443.376112] sd 1:0:0:0: [sda] tag#25 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Jul 23 14:00:41 server kernel: [1199443.376115] sd 1:0:0:0: [sda] tag#25 Sense Key : Medium Error [current] [descriptor]
Jul 23 14:00:41 server kernel: [1199443.376118] sd 1:0:0:0: [sda] tag#25 Add. Sense: Unrecovered read error - auto reallocate failed
Jul 23 14:00:41 server kernel: [1199443.376121] sd 1:0:0:0: [sda] tag#25 CDB: Read(16) 88 00 00 00 00 00 f9 43 fc 26 00 00 00 02 00 00
Jul 23 14:00:41 server kernel: [1199443.376123] blk_update_request: I/O error, dev sda, sector 4181982246
Jul 23 14:00:41 server kernel: [1199443.376194] ata2: EH complete
しばらく前にSATAケーブルエラーが原因で読み書きエラーが発生し(後でzpoolのクリーンアップとスナップショットから復元して修正されます)、最初はこのエラーが発生したと思いました。ちなみに今回は、ブッシュウォーキングをする際にランダムに繰り返されます。
これまでZFSはエラーがないと言っていますが、ディスクを「修復」しているとも言います。
pool: sdb
state: ONLINE
scan: scrub in progress since Sun Jul 23 00:00:01 2017
5.41T scanned out of 7.02T at 98.9M/s, 4h44m to go
16.5K repaired, 77.06% done
config:
NAME STATE READ WRITE CKSUM
sdb ONLINE 0 0 0
ata-WDC_WD30EFRX-68EUZN0_WD-WMC4N1366685 ONLINE 0 0 0 (repairing)
ata-WDC_WD30EFRX-68EUZN0_WD-WMC4N0K3PFPS ONLINE 0 0 0
ata-WDC_WD30EFRX-68EUZN0_WD-WMC4N0M94AKN ONLINE 0 0 0
cache
sde ONLINE 0 0 0
errors: No known data errors
SMARTデータは単純なテストを実行した後、すべてが大丈夫であることを示しているようです。唯一目立つのは、UDMA_CRC_Error_Count
SATAケーブルを固定した後もまったく伸びなかったことです。
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 195 175 021 Pre-fail Always - 5233
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 625
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 100 253 000 Old_age Always - 0
9 Power_On_Hours 0x0032 069 069 000 Old_age Always - 22931
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 625
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 581
193 Load_Cycle_Count 0x0032 106 106 000 Old_age Always - 283773
194 Temperature_Celsius 0x0022 118 109 000 Old_age Always - 32
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 133 000 Old_age Always - 1801
200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 22931 -
これに加えて、ZFS I / Oエラーに関する通知も受け取りました。これこれはドライブアイドル/回転時間に関連するバグです。
eid: 71
class: io
host: server
time: 2017-07-23 15:57:49-0500
vtype: disk
vpath: /dev/disk/by-id/ata-WDC_WD30EFRX-68EUZN0_WD-WMC4N1366685-part1
vguid: 0x979A2C1464C41735
cksum: 0
read: 0
write: 0
pool: sdb
私の主な質問は、このドライブをどのように管理する必要がありますか?安全のために交換しようとしていますが、どのくらいの頻度で交換する必要があるのか疑問に思います。
以下は、SMARTデータとZFS /カーネルの違いを説明できると思います。
- ZFS ioエラーのバグのため、カーネルに不良セクタがあると思いますが、SMARTによると何もありません。
- ZFSはドライブを修理し続けます(以前の不良ケーブルに関連)。これは、SMARTデータがあるにもかかわらずドライブエラーを示す可能性があります。
- このエラーは偽陽性であり、これに関して修正されていません。抜け穴Ubuntuでは
編集:今、良いドライブのファームウェアバージョンが82.00A82で、エラーのあるバージョンが80.00A80であることに気づきました。 Western Digital Forumによると、この特定のモデルのファームウェアを更新する方法はありません。私もそれが役に立たないと確信しています。
編集2:ずっと前に更新するのを忘れていましたが、これは最終的にハードウェアの問題です。複数のSATAケーブルを交換した後、ついに問題が電源ケーブルに欠陥があることに気づきました。不安定な電源装置はドライブを停止しましたが、より良い電源装置を購入してプールを節約できました。
答え1
最終的にドライブを交換するかどうかを判断できるのはあなたのデータです。結局は錆びただけです。
しかし、cat/RAID0プールを作成したように見えるので、ドライブにエラーが発生するとすべてが失われることを指摘したいと思います。ミラーがないと、ZFSは失敗したファイルを回復できず、報告のみできます。
クリーンアップの実行中にsyslogに送信されたエラーメッセージが表示された場合は、ZFSチェックサムの確認中にドライブに負担がかかる可能性があります。すべてのデータにアクセスできるわけではないため、スクラビングはドライブに再割り当てが必要と思われるブロックに到達できます。または回線にノイズがあります。私はBrendan Greggがディスクについて音を鳴らすことについて話しているわけではありません。 ;o)ケーブルの問題を発見しましたか?コントローラやポートの問題も関連していますか?
Western Digital Forumについて知っています。私は、消費者ドライブがソフトウェアやハードウェアRAIDとうまく機能しないという「苦情」をたくさん見ました。データが重要な場合は、ディスクの数が増えず、再構築/再同期中に他の操作が失敗する可能性があるため、ミラーリング(3方向ミラーを含む)の使用を検討できます。
「スマートデータ」の場合、結論はそれがどれだけ「スマート」または有用であるかである。ベンダーテストに合格したが役に立たないドライブを見たことがあります。