SSDハードリセットリンクCentOS 7

SSDハードリセットリンクCentOS 7

私には2つありますインテルSSDSC2CW120A3ソリッドステートドライブスーパーマイクロX9SCL/X9SCMCentOS 7でソフトウェアRAID-1を設定します。

Linux hostname.local 3.10.0-957.5.1.el7.x86_64 #1 SMP Fri Feb 1 14:54:57 UTC 2019 x86_64 x86_64 x86_64 GNU/Linux

ata1 と ata2 には「ハードリセットリンク」がdmesg表示されます。ほとんどの場合、私(または私の監視)はダウンタイムを認識しませんが、時にはサーバーが完全に停止し、電源リセットを実行する必要があります(これ以上通過できない)SSHに接続します。dmesgこれはリセット出力に応じて頻繁に発生します。

$ dmesg | grep "hard resetting link"
[161507.540860] ata1: hard resetting link
[161751.123732] ata2: hard resetting link
[161798.132697] ata2: hard resetting link
[161879.126542] ata2: hard resetting link
[161939.134102] ata2: hard resetting link
[162536.225103] ata1: hard resetting link
[164738.176816] ata1: hard resetting link

より多くの出力dmesg

[229999.873718] ata1.00: failed command: WRITE FPDMA QUEUED
[229999.879043] ata1.00: cmd 61/08:f0:28:12:d5/00:00:00:00:00/40 tag 30 ncq 4096 out
     res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[229999.894050] ata1.00: status: { DRDY }
[229999.897815] ata1: hard resetting link
[230000.206411] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[230000.223165] ata1.00: ACPI cmd ef/10:06:00:00:00:00 (SET FEATURES) succeeded
[230000.223179] ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
[230000.231187] ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
[230000.253132] ata1.00: ACPI cmd ef/10:06:00:00:00:00 (SET FEATURES) succeeded
[230000.253137] ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
[230000.261148] ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
[230000.273568] ata1.00: configured for UDMA/133
[230000.277980] ata1: EH complete

SATAケーブルを確認したところ大丈夫に見え、プラグを抜いて再接続しました。 smartctlで修正できないエラーがいくつか報告されていますが、他にはまったく疑わしいことはありません。また、利用可能なカーネルアップデートはありません。

ドライブまたはマザーボードの交換を始める前に、さらに確認できるものがあるかどうか疑問に思います。この問題がハードウェアの問題かソフトウェアの問題かを確認しようとしています。

ティア

答え1

「SATAケーブルを確認してみると大丈夫に見えますが、プラグを抜いてから再接続してみてください。」

自宅でも同じ問題がありましたが、SATAケーブルを交換しなければ問題を解決できませんでした。あなたのようにその人たちも一見大丈夫に見えますが、中では何か間違っているようです。ケーブルだけを見て判断しないでください。これらのataエラーは迷惑であり、ほぼすべての場所、さらにはPSUでも発生する可能性があります。例:

...最初は、SATAコントローラまたはケーブルの問題であると認識してドライブを交換しましたが、同じドライブがまだ影響を受けます。それから私はそれがドライブに関連していると思い、BIOSを頻繁にリセットすることを決めるまでしばらく私を横に出ました。この作業中に電源電圧をランダムに調べましたが、12Vレールが約10.2Vに低下しました...本当に迷惑な経験で、症状は非常に誤解を招く可能性があります。結局のところ、ドライブは大丈夫です。これはまったく異なる問題の症状です。今後はルーメンセンサーの電圧も定期的にチェックしてみます。

特定の状況に応じて問題を解決する方法は次のとおりです。

最初にすべきことmdraid

  • BIOS内部を確認してディスクコントローラ偽のRAID、設定でRAIDモードが有効になっていることを確認してください。 Sata AHCI に変更し、システムを再インストールします。これは非常に常識的な事実です(Red Hatにもコピーがあります。mdraid)FakeRAIDの攻撃モードによって設定がめちゃくちゃになることがあります。これは問題を解決しませんが、近いうちに問題が発生するのを防ぎます。

SATA確認後:

  • SATAケーブルを交換してください。 AMDがマザーボード側にある種の「排他的な」コネクタを使用しない限り、最近はかなり安いです。
  • SSDとディスクコントローラのファームウェアをアップデートしてください。あなたの質問(failed command: WRITE FPDMA QUEUED、、Emask 0x4 (timeout))はこれと非常に関連しているようですが、ハードウェアは異なります。[解決済み] "コマンド失敗:WRITE FPDMA QUEUED" ATAエラー
  • 友達にスペアパワーを借りて仕様を確認して交換してみてください。
  • これですべての基本について説明したので、supermicroに連絡してボードのサポートケースを試してください。
  • すべての作業が完了したら、ディスクを交換してください。

答え2

ドライブまたはマザーボードの交換を始める前に、さらに確認できるものがあるかどうか疑問に思います。

私の家のコンピュータはCentOS 7.6、asrock lga1156です。持つNvidiaインストールされたグラフィックドライバはgtx970をサポートし、カーネルアップデートが行われました...ご存知のように、nvidiaインストーラはカーネルモジュール[dkmsを使用しない限り]が失われます。そのため、カーネルの更新後に次の問題が発生しました。

ACHI does not support sleep

{repeated} usb1-2 reset high speed device number 2 using xhci_ncd

NVIDIAグラフィックスカードドライバを再インストールすると問題が解決します。

Nvidiaドライバがない場合は、同様の方法でインストールされている他のソフトウェアを無視しないでください。カーネルモジュール

関連情報