私の理解はSSD NVMEディスクの正常な磨耗です。

私の理解はSSD NVMEディスクの正常な磨耗です。

私のDebian / Sidデスクトップ家庭用コンピュータ(AMD Ryzen 2970WX、一部のMSI 399マザーボード)にSSD M2 NVMEがあり、次のroot自動電子メールを受け取ります。

 The following warning/error was logged by the smartd daemon:

 Device: /dev/nvme0, number of Error Log entries increased from 423 to
 424

 Device info: Samsung SSD 970 EVO 2TB, S/N:S464NB0KA03837J,
 FW:2B2QEXE7, 2.00 TB

For details see host's SYSLOG.

SSDディスクには、ルートパーティション(29%で埋められているdf -h)と/home(5%でいっぱい)が含まれています。

主に開発に使用されるデスクトップ(フランス、パリの近くに位置するUPS 24/24を介して電源供給)参照システム./refpersys一般的なソフトウェア開発者の活動(ソフトウェアの構築、デバッグ、テスト、メールとWeb検索、LaTeX、emacs、実行など)も含まれます。

私の理解はSSD NVMEディスクの正常な磨耗です。

(rootとして実行)後のsmartctl --test=short /dev/nvme0コマンドは次のようにsmartctl -a /dev/nvme0 なります。

smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.0-3-amd64] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number:                       Samsung SSD 970 EVO 2TB
Serial Number:                      S464NB0KA03837J
Firmware Version:                   2B2QEXE7
PCI Vendor/Subsystem ID:            0x144d
IEEE OUI Identifier:                0x002538
Total NVM Capacity:                 2,000,398,934,016 [2.00 TB]
Unallocated NVM Capacity:           0
Controller ID:                      4
Number of Namespaces:               1
Namespace 1 Size/Capacity:          2,000,398,934,016 [2.00 TB]
Namespace 1 Utilization:            258,943,426,560 [258 GB]
Namespace 1 Formatted LBA Size:     512
Namespace 1 IEEE EUI-64:            002538 5a81b50e6f
Local Time is:                      Mon Feb  3 10:28:49 2020 MET
Firmware Updates (0x16):            3 Slots, no Reset required
Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test
Optional NVM Commands (0x005f):     Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat Timestmp
Maximum Data Transfer Size:         512 Pages
Warning  Comp. Temp. Threshold:     82 Celsius
Critical Comp. Temp. Threshold:     82 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     6.20W       -        -    0  0  0  0        0       0
 1 +     4.30W       -        -    1  1  1  1        0       0
 2 +     2.10W       -        -    2  2  2  2        0       0
 3 -   0.0400W       -        -    3  3  3  3      210    1200
 4 -   0.0050W       -        -    4  4  4  4     2000    8000

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        39 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    0%
Data Units Read:                    170,671,345 [87.3 TB]
Data Units Written:                 6,787,146 [3.47 TB]
Host Read Commands:                 1,072,794,583
Host Write Commands:                62,979,313
Controller Busy Time:               1,480
Power Cycles:                       196
Power On Hours:                     906
Unsafe Shutdowns:                   136
Media and Data Integrity Errors:    0
Error Information Log Entries:      427
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               39 Celsius
Temperature Sensor 2:               43 Celsius

Error Information (NVMe Log 0x01, max 64 entries)
No Errors Logged

出力は次のとおりですsmartctl -x /dev/nvme0

smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.0-3-amd64] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number:                       Samsung SSD 970 EVO 2TB
Serial Number:                      S464NB0KA03837J
Firmware Version:                   2B2QEXE7
PCI Vendor/Subsystem ID:            0x144d
IEEE OUI Identifier:                0x002538
Total NVM Capacity:                 2,000,398,934,016 [2.00 TB]
Unallocated NVM Capacity:           0
Controller ID:                      4
Number of Namespaces:               1
Namespace 1 Size/Capacity:          2,000,398,934,016 [2.00 TB]
Namespace 1 Utilization:            258,943,426,560 [258 GB]
Namespace 1 Formatted LBA Size:     512
Namespace 1 IEEE EUI-64:            002538 5a81b50e6f
Local Time is:                      Mon Feb  3 10:42:30 2020 MET
Firmware Updates (0x16):            3 Slots, no Reset required
Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test
Optional NVM Commands (0x005f):     Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat Timestmp
Maximum Data Transfer Size:         512 Pages
Warning  Comp. Temp. Threshold:     82 Celsius
Critical Comp. Temp. Threshold:     82 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     6.20W       -        -    0  0  0  0        0       0
 1 +     4.30W       -        -    1  1  1  1        0       0
 2 +     2.10W       -        -    2  2  2  2        0       0
 3 -   0.0400W       -        -    3  3  3  3      210    1200
 4 -   0.0050W       -        -    4  4  4  4     2000    8000

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        39 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    0%
Data Units Read:                    170,671,351 [87.3 TB]
Data Units Written:                 6,787,156 [3.47 TB]
Host Read Commands:                 1,072,794,690
Host Write Commands:                62,980,162
Controller Busy Time:               1,480
Power Cycles:                       196
Power On Hours:                     906
Unsafe Shutdowns:                   136
Media and Data Integrity Errors:    0
Error Information Log Entries:      427
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               39 Celsius
Temperature Sensor 2:               42 Celsius

Error Information (NVMe Log 0x01, max 64 entries)
No Errors Logged

私はこのようなテストと情報がno errors logged安心していると思います。

質問:

いつ心配すべきですか?

理想的には、SSDが予期せずクラッシュする前に交換したいと思います。 SSDが完全に故障しているという噂を聞きました(回転するハードドライブのように徐々に故障しません)。私はまったくハードウェアの専門家ではありません。

SSD NVMEディスクの摩耗を評価するには、どのLinuxコマンドを実行する必要がありますか(毎月)?

答え1

試してみてください(apt、synaptic、または同様のパッケージをインストールする必要がありますsudo nvme error-log /dev/nvme0)。nvme-cli

答え2

SSDの寿命は通常、ストレージデバイスが処理できる書き込み回数によって制限されます。 SSD / NVMeのストレージセルは、失敗する前に限られた数の書き込み操作に耐えることができます。

一般に、ソリッドステートデバイスのメモリセルは各書き込み動作中に磨耗し、各メモリセルは限られた(制限された)数の書き換えのみを許可します。 (この値は通常、各セルに格納されているビット数が増えるにつれて小さくなります。SLC-> MLC-> TLC-> QLC)。ほとんどのソリッドステートディスク(SSDデバイス)は、さまざまなプロパティを介してメモリデバイスの全体的な状態を報告します。

これを使用して、smartctl -a /dev/nvme0n1nvme ディスクに関するステータス情報を表示できます。

percentage_usedディスク寿命に関してディスクメーカーによって計算された数値を表示します。このavailable_spareパラメーターは、使用可能な予備記憶装置の数を示します。 「available_spare」が1%に低下し、「percentage_used」が100%に上がらない限り、SSDはまだ正常に動作します。

この制限に達したら、SSDの交換を検討する必要があります。Critical Warning常に0x00確認すべきもう一つの指標はNVMe仕様他の番号の場合。

失敗/摩耗したNVMeの切り捨てられた出力例:

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: FAILED!
- available spare has fallen below threshold
- media has been placed in read only mode

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x09
Temperature:                        54 Celsius
Available Spare:                    0%
Available Spare Threshold:          10%
Percentage Used:                    3%
Data Units Read:                    152,049,475 [77.8 TB]
Data Units Written:                 123,071,212 [63.0 TB]

健康なNVMeの例:

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        38 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    1%
Data Units Read:                    8,602,182 [4.40 TB]
Data Units Written:                 13,527,143 [6.92 TB]

いくつかのスペアパーツを使用したがまだ機能しているNVMeの例:

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        45 Celsius
Available Spare:                    74%
Available Spare Threshold:          10%
Percentage Used:                    3%
Data Units Read:                    435,391,613 [222 TB]
Data Units Written:                 47,171,668 [24.1 TB]

読んでみてください。 NVMeドライブの寿命

関連情報