テストと結果

テストと結果

バックアップサーバーに物理的な問題が発生しました(雷雨による感電と見なされます)。システムは、2つの4TBディスクRAID-1 ZFS(LinuxのZFS)プールにストレージがあるディスクベースのLinux Debianです。私たちが発見した最初の症状はシステム停止でした。何度も不安定な起動を経験した後、BIOSを通過できませんでした。だから私たちはシステムディスクを問題なく起動し、安定して見えた別のマシンに移動しましたが、ZFSストレージをそこに移動しようとしたときに1つのディスクのみがZFS部品プールとして検出されましたが、ロード/インストールでき、そこzpoolからデータが削除されます(lsblk -f別のディスクにパーティションがないことだけが表示されます)。 2番目のディスクをロードするために複数のテストを行った後、最初のディスクはロードできなくなり、パーティション化されていないことが検出されました。

注:コマンドとテスト結果は次のとおりです。

そのため、SMARTツールを使用して両方のディスクの状態をテストしてみましたsmartctlが、エラーが返されず、ディスクが動作可能であることがわかりました。したがって、dd読み出しエラーは返されないため、データの読み込み試行は成功します。だから私たちはそれを試してみましたが、badblocksこれはすべてがうまく機能していることを示しました。最後に試みた結果、gpartWindows NT / W2Kパーティションが空になる可能性がありますが、ディスクサイズが大きく、プロセスが終了しないことが一時的に見つかりました。

これまでに観察された唯一の問題は、MBRが欠落していることですが、ZFS MBRを復元するためのツールが見つかりませんでした。どうすればいいですか?

また、古い外部複製ディスクがあるため(交換したディスクを外部化するために毎月1つを別のものと交換して独自に「再同期」)、MBRをコピーできるかどうかを尋ねました。障害が発生したディスクのディスクを交換するには、ディスクのZFSプール部分にあるMBRとそのミラーがまったく同じかどうか、またはMBRが実行された後に違いがあるかどうかはわかりません。複製が可能な場合はどうすればよいですかdd


テストと結果

root@CZ-LIVE:~# lsblk -o NAME,SIZE,FSTYPE
NAME     SIZE FSTYPE
...
sda      3,6T 
...

=> ZFSファイルシステムが検出されない

root@CZ-LIVE:~# smartctl -t long /dev/sda
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.0-2-amd64] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION ===
Sending command: "Execute SMART Extended self-test routine immediately in off-line mode".
Drive command "Execute SMART Extended self-test routine immediately in off-line mode" successful.
Testing has begun.
Please wait 54 minutes for test to complete.
Test will complete after Fri Sep 9 17:24:14 2022 UTC
Use smartctl -X to abort test.

root@CZ-LIVE:~# smartctl -l selftest /dev/sda
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.0-2-amd64] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed without error 00% 4660 -

root@CZ-LIVE:~# smartctl -A /dev/sda
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.0-2-amd64] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x0003 100 100 006 Pre-fail Always - 0
3 Spin_Up_Time 0x0003 100 100 000 Pre-fail Always - 16
4 Start_Stop_Count 0x0002 100 100 020 Old_age Always - 100
5 Reallocated_Sector_Ct 0x0003 100 100 036 Pre-fail Always - 0
9 Power_On_Hours 0x0003 100 100 000 Pre-fail Always - 1
12 Power_Cycle_Count 0x0003 100 100 000 Pre-fail Always - 0
190 Airflow_Temperature_Cel 0x0003 069 069 050 Pre-fail Always - 31 (Min/Max 31/31)

root@CZ-LIVE:~# smartctl -A /dev/sda | \
 grep -iE "Power_On_Hours|G-Sense_Error_Rate|Reallocated|Pending|Uncorrectable"
5 Reallocated_Sector_Ct 0x0003 100 100 036 Pre-fail Always - 0
9 Power_On_Hours 0x0003 100 100 000 Pre-fail Always - 1

=>ディスク内部は特別なものを返しません

dd読み取りエラーがあるかどうかを表示します(源泉):

root@CZ-LIVE:~# dd if=/dev/sda of=/dev/null bs=64k conv=noerror status=progress
4000784842752 octets (4,0 TB, 3,6 TiB) copiés, 104555 s, 38,3 MB/s
61047148+1 enregistrements lus
61047148+1 enregistrements écrits
4000785948160 octets (4,0 TB, 3,6 TiB) copiés, 104556 s, 38,3 MB/s

=>読み取りエラーなし

root@CZ-LIVE:~# date ; badblocks -svn /dev/sda ; date
ven. 16 sept. 2022 17:00:06 UTC
Checking for bad blocks in non-destructive read-write mode
From block 0 to 3907017526
Checking for bad blocks (non-destructive read-write test)
Testing with random pattern: done
Pass completed, 0 bad blocks found. (0/0/0 errors)
dim. 18 sept. 2022 01:54:49 UTC

=>ブロックエラーなし

root@CZ-LIVE:~# gpart /dev/sda
Begin scan...
Possible partition(Windows NT/W2K FS), size(0mb), offset(345079mb)

=>空のパーティション... ZFSとして検出されない

関連情報