私のPCのSSDの摩耗と損傷におけるbtrfsの役割をどのように測定できますか？

2024-6-11 • tag-icon

私のPCのSSDの摩耗と損傷におけるbtrfsの役割をどのように測定できますか？

私はSamsung EVO SSDで暗号化されたパーティション（luks）としてbtrfsを使用しています。ディスクが予想より速く失敗しています。これらのディスクでext4をより安定して使用できるのか、それともどのような用途でext4がより磨耗するのかをどのように評価しますか？

背景

デスクトップコンピュータからルートディスクとベーシックディスクとして約2年間使用した後、Samsung SSD 870 EVO 500GBは何百もの不良ブロックと何千もの修正不可能なエラーのため失敗し始めました。

$ sudo smartctl -a /dev/sda
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.2.15-100.fc36.x86_64] (local build)

=== START OF INFORMATION SECTION ===
Device Model:     Samsung SSD 870 EVO 500GB
Firmware Version: SVT01B6Q

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

Self-test execution status:      ( 121) The previous self-test completed having
                                        the read element of the test failed.

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  9 Power_On_Hours          0x0032   096   096   000    Old_age   Always       -       19378
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       69
177 Wear_Leveling_Count     0x0013   098   098   000    Pre-fail  Always       -       44
183 Runtime_Bad_Block       0x0013   065   065   010    Pre-fail  Always       -       200
187 Uncorrectable_Error_Cnt 0x0032   099   099   000    Old_age   Always       -       2696
235 POR_Recovery_Count      0x0012   099   099   000    Old_age   Always       -       59
241 Total_LBAs_Written      0x0032   099   099   000    Old_age   Always       -       83504703737

ディスク使用量はかなり多いが、それよりはるかに少ない。保証制限5年か300TB TBW。

前作のサムスン850 EVO 250GBは5年使用後も同様の状態だ。たぶん新しいディスクが古いディスクよりも悪いかもしれませんが、共通点があるかどうか疑問になり始めました。

彼らが共有したものの1つは、私がFedoraをインストールし、最近Fedoraがext4（ほとんどの場合、以前のディスクはext4だったと思います）ではなく、デフォルトで（少なくともluksファイルシステムの場合）btrfsを使い始めたことです。たとえば、Fedora 38はデフォルトで次のレイアウトを作成します。

$ lsblk
NAME                MAJ:MIN RM   SIZE RO TYPE  MOUNTPOINTS
sda                   8:0    0 465,8G  0 disk  
├─sda1                8:1    0   600M  0 part  /boot/efi
├─sda2                8:2    0     1G  0 part  /boot
└─sda3                8:3    0 464,2G  0 part  
  └─luks-<redacted> 253:0    0 464,2G  0 crypt /home
                     /
$ mount | grep luks
/dev/mapper/luks-<redacted> on / type btrfs (rw,relatime,seclabel,compress=zstd:1,ssd,discard=async,space_cache=v2,subvolid=257,subvol=/root)
/dev/mapper/luks-<redacted> on /home type btrfs (rw,relatime,seclabel,compress=zstd:1,ssd,discard=async,space_cache=v2,subvolid=256,subvol=/home)
$ mount | grep sda
/dev/sda2 on /boot type ext4 (rw,relatime,seclabel)
/dev/sda1 on /boot/efi type vfat (rw,relatime,fmask=0077,dmask=0077,codepage=437,iocharset=ascii,shortname=winnt,errors=remount-ro)

数年前でも状況は似ていましたが圧縮そして他のbtrfsパラメータ。

COW（記録中のコピー）について議論した後、btrfs文書には多くの言葉があります。SSD警告:

「多すぎる」さまざまなデータ（暗号化など）を記録すると、内部重複排除が無効になり、広範な書き換えが発生し、ストレージデバイスの摩耗が増加する可能性があります。 SSDの動作方法に関する情報が不足しているか、デバイスが提供する信頼できる統計のため、SSDの期待寿命を確実に判断できません。 SSDの実際のライフライトボリュームの50％〜100％を消費するユーザーだけが、btrfs DUPメタデータの書き込み増幅に興味を持っている必要があります。

したがって、書き込みボリュームが保証の約束よりもはるかに少ないにもかかわらず、ディスクの実際の寿命の50％以上に達したようです。しなければならないbtrfs SSDの摩耗が心配です。

使用パターン

今私はBTRFSスクラブ月間や停電などの事件が発生した後：

ユーザーは手動で実行するか、スケジュールされたシステムサービスを介して実行する必要があります。推奨期間は1ヶ月ですが、短い場合があります。

私はこれをしたことがありません。それにもかかわらず、最も頻繁にアクセスされるファイルは、ある時点で確認および回復されます。破損したファイルは古く、アクセスが少ない側にある傾向があります。

（これが重要な場合は奇妙です。SMARTによると、luks + lvm + ext4を使用する他のSSDは問題なく10,000回以上の電源サイクルを持っています。）

考えられる考え

人々は通常、btrfsでデータベースや他の同様の書き込み集約型ワークロードを実行しないことをお勧めします。

上記の提案が真であるか最新であるかはわかりませんが、私のコンピュータで実行されているデータベースはありません。一方、以前のディスクの最も破壊的なエラーは、Thunderbirdがメッセージを保存するために使用した領域（数ギガバイトのmboxファイルが含まれており、その後Maildirに切り替えました）で発生しました。自分のコンピュータにデータベースなどのロードがなくても実行できるのか、別のファイルシステムに移動できるのか疑問に思います。 (私は baloo を無効にしました.)

どのアプリケーションがファイルシステムで最も多くの書き込み（または摩耗の可能性が最も高い）を生成するかを知ることができるベンチマークツールまたはユーティリティはありますか？

または、特定のファイルシステムとディスクの組み合わせをストレステストし、ディスクの自己報告された摩耗に対するさまざまなシナリオの影響を確認するためのベンチマークツールまたはユーティリティはありますか？

答え1

2021年初め半ばSamsung 870 EVO SSD早く失敗することが多い正しきれない間違いのためだ。

ドライブを返却することをお勧めします。サムスンに電話してもらう必要があります。返品承認SSDの場合は、電子メールを送信しないでください。

背景

使用パターン

考えられる考え

答え1

関連情報