ランダムSSD終了 - ext4_find_entry、lblock0ディレクトリを読む

ランダムSSD終了 - ext4_find_entry、lblock0ディレクトリを読む

過去2週間でGNU / LinuxのSSDに問題が発生しました。デバイスの問題ではないようですが、よくわかりません。場合によっては(過去数日間、1〜2日ごとに)接続が失われたか、電源が切れているかのようにディスクへの物理アクセスが失われることがあります。

間違い:

EXT4-fs error (device: sda2): ext4_find_entry:1465: inode #1308161: comm NetworkManager: reading directory lblock 0

写真の内容を誤って入力しても正確ではない可能性があります。

メモ:

デバイスは常に同じ「sda2」であり、他の(大規模ファミリ)パーティションではエラーは検出されません。次に確認してみましょう。 Inodeとプロセス名は変更されますが、NetworkManagerは一般的です。 lblock は常に 0 です。

ハードウェア:

SSDディスクLITEON CV3-8D512-11 SATA 512GBを搭載したDell E7270

ソフトウェア:

Debian カーネル 4.11 でテストされました。

smartctl簡単な出力:

Device Model:     LITEON CV3-8D512-11 SATA 512GB
Serial Number:    TW0956WWLOH006CU022Z
LU WWN Device Id: 5 002303 100ce15e0                                                                                                                                         
Firmware Version: T89110D                                                                                                                                                    
User Capacity:    512,110,190,592 bytes [512 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      M.2
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ATA8-ACS, ATA/ATAPI-7 T13/1532D revision 4a
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Wed Jul  5 12:32:39 2017 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

...

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0003   100   100   000    Pre-fail  Always       -       0
  9 Power_On_Hours          0x0002   100   100   000    Old_age   Always       -       327
 12 Power_Cycle_Count       0x0003   100   100   000    Pre-fail  Always       -       335
175 Program_Fail_Count_Chip 0x0003   100   100   000    Pre-fail  Always       -       0
176 Erase_Fail_Count_Chip   0x0003   100   100   000    Pre-fail  Always       -       0
177 Wear_Leveling_Count     0x0003   100   100   000    Pre-fail  Always       -       59
178 Used_Rsvd_Blk_Cnt_Chip  0x0003   100   100   000    Pre-fail  Always       -       0
179 Used_Rsvd_Blk_Cnt_Tot   0x0003   100   100   000    Pre-fail  Always       -       0
180 Unused_Rsvd_Blk_Cnt_Tot 0x0033   100   100   005    Pre-fail  Always       -       2688
181 Program_Fail_Cnt_Total  0x0003   100   100   000    Pre-fail  Always       -       0
182 Erase_Fail_Count_Total  0x0003   100   100   000    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0003   100   100   000    Pre-fail  Always       -       0
194 Temperature_Celsius     0x0003   100   100   000    Pre-fail  Always       -       76
195 Hardware_ECC_Recovered  0x0003   100   100   000    Pre-fail  Always       -       0
199 UDMA_CRC_Error_Count    0x0003   100   100   000    Pre-fail  Always       -       0
238 Unknown_Attribute       0x0003   097   100   000    Pre-fail  Always       -       3
241 Total_LBAs_Written      0x0003   100   100   000    Pre-fail  Always       -       4293005286
242 Total_LBAs_Read         0x0003   100   100   000    Pre-fail  Always       -       3510503294

SMART Error Log Version: 0
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%       298         -
# 2  Short offline       Completed without error       00%       294         -
# 3  Offline             Interrupted (host reset)      80%       294         -
# 4  Offline             Interrupted (host reset)      10%       294         -
# 5  Short offline       Completed without error       00%       294         -
# 6  Short offline       Completed without error       00%         1         -
# 7  Short offline       Aborted by host               90%         1         -

アイデア:

  • 不良ブロックチェックの実行
  • 接続確認

答え1

これはAPSTの問題です。

2つの解決策があります。

  1. 走る

    sudo nano /etc/default/grub
    

    valueで始まる行を検索し、GRUB_CMDLINE_LINUX_DEFAULTvalueとして追加しますnvme_core.default_ps_max_latency_us=0

    結果は次のとおりです。

    GRUB_CMDLINE_LINUX_DEFAULT="quiet splash nvme_core.default_ps_max_latency_us=0"
    

    次にファイルを保存します。

    sudo update-grub
    reboot
    
  2. 最初のバリアントが機能しない場合は、ASPM:を無効にしてくださいpcie_aspm=off。したがって、最終結果は次のようになります。

    GRUB_CMDLINE_LINUX_DEFAULT="quiet splash pcie_aspm=off"
    

    次にファイルを保存します。

    sudo update-grub
    reboot
    

答え2

これがお使いのコンピュータで上記の動作の原因ではない可能性があります。しかし、私の場合は、コンピュータがワイヤに近接していたからでした。コンピュータにAPSTの問題を引き起こす電磁共鳴やその他の理由など、いくつかの物理的現象がある可能性があります。電源コードの近くにノートパソコンを置かないように机を再配置し、問題を解決しました。単純な。

答え3

私は強い電磁場に同意します。家がそこにいる場合は、移動または移転する理由になる可能性があります。

私はコーヒーを飲みながら仕事に行き、カフェに行きましたが、そこではすべてが間違っていました。床が崩れ、ウェイトレスが飛び回りました。時計を3回変更したところ、最後に問題のエラーが発生し始めました。その後、同じ結果で約5〜7回再起動しました。私は何もできない非常に迷惑な状態で(私には奇妙だった)家に帰った。

今家では、すべてが正常に戻ってきました!

SSDディスク(または人体の心理的、感情的な状態)などの敏感なデバイスは、これらの電磁環境に反応できるようです。

したがって、システムを再構成したり、ノートパソコンを保護したりするその他の危険な変更を加える前に、まず別の場所を試してください。

答え4

SDDを取り外し、M.2コネクタに空気を吹き込んだ後、再接続して問題を解決したようです。

USBからDebian Rescueを起動したとき、より詳細なカーネルデバッグ情報が見つかりました。検索中、ほとんどのソリューションにはSATAケーブルの交換が含まれていることがわかりました。ケーブルなしのラップトップM.2接続。

画面を公開しています。 画面

最も重要なログテキストのいくつかは次のとおりです。

exception Emask 0x10 SAct ... SErr ... action 0xe frozen
interface fatal error, PHY RDY changed
SError: { PHYRdyChg LinkSeq }
failed command: WRITE FPDMA QUEUED
Emask 0x10 (ATA bus error)
hard resetting link

関連情報