私はDebian(omv)、OS用のSSDハードドライブ、データ用のソフトウェアRAID 6を含む新しいシステムを持っています。
私はシステムログで非常に一般的な例外を見つけました。私は今、これらの異常を引き起こす原因が何であるかを心配しています。これはソフトウェアの問題ですか、それとも一部のハードウェアに実際に欠陥がありますか?実際にこのログから何でも読むことができますか?
システムログにはさらに例外がありますが、以下は抜粋です。
Jul 19 07:48:51 msa-nas1 kernel: [485174.166986] ata5.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6
Jul 19 07:48:51 msa-nas1 kernel: [485174.168522] ata5.01: failed command: WRITE MULTIPLE EXT
Jul 19 07:48:51 msa-nas1 kernel: [485174.170003] ata5.01: cmd 39/00:00:00:cc:89/00:04:08:00:00/f0 tag 0 pio 524288 out
Jul 19 07:48:51 msa-nas1 kernel: [485174.170003] res 51/84:00:00:cd:89/84:03:08:00:00/f0 Emask 0x10 (ATA bus error)
Jul 19 07:48:51 msa-nas1 kernel: [485174.172996] ata5.01: status: { DRDY ERR }
Jul 19 07:48:51 msa-nas1 kernel: [485174.174500] ata5.01: error: { ICRC ABRT }
Jul 19 07:48:51 msa-nas1 kernel: [485174.176003] ata5: soft resetting link
Jul 19 07:48:51 msa-nas1 kernel: [485174.355492] ata5.00: configured for UDMA/33
Jul 19 07:48:51 msa-nas1 kernel: [485174.364550] ata5.01: configured for PIO0
Jul 19 07:48:51 msa-nas1 kernel: [485174.364574] ata5: EH complete
Jul 19 07:48:57 msa-nas1 kernel: [485180.175794] ata5.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6
Jul 19 07:48:57 msa-nas1 kernel: [485180.177436] ata5.01: failed command: WRITE MULTIPLE EXT
Jul 19 07:48:57 msa-nas1 kernel: [485180.179037] ata5.01: cmd 39/00:00:00:34:8a/00:04:08:00:00/f0 tag 0 pio 524288 out
Jul 19 07:48:57 msa-nas1 kernel: [485180.179037] res 51/84:00:00:37:8a/84:01:08:00:00/f0 Emask 0x10 (ATA bus error)
Jul 19 07:48:57 msa-nas1 kernel: [485180.182279] ata5.01: status: { DRDY ERR }
Jul 19 07:48:57 msa-nas1 kernel: [485180.183907] ata5.01: error: { ICRC ABRT }
Jul 19 07:48:57 msa-nas1 kernel: [485180.185524] ata5: soft resetting link
Jul 19 07:48:57 msa-nas1 kernel: [485180.380318] ata5.00: configured for UDMA/33
Jul 19 07:48:57 msa-nas1 kernel: [485180.389391] ata5.01: configured for PIO0
Jul 19 07:48:57 msa-nas1 kernel: [485180.389407] ata5: EH complete
Jul 19 07:48:58 msa-nas1 kernel: [485180.939900] ata5.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6
Jul 19 07:48:58 msa-nas1 kernel: [485180.941736] ata5.01: failed command: WRITE MULTIPLE EXT
Jul 19 07:48:58 msa-nas1 kernel: [485180.943533] ata5.01: cmd 39/00:00:00:3c:8a/00:04:08:00:00/f0 tag 0 pio 524288 out
Jul 19 07:48:58 msa-nas1 kernel: [485180.943533] res 51/84:00:00:3e:8a/84:02:08:00:00/f0 Emask 0x10 (ATA bus error)
Jul 19 07:48:58 msa-nas1 kernel: [485180.947169] ata5.01: status: { DRDY ERR }
Jul 19 07:48:58 msa-nas1 kernel: [485180.948998] ata5.01: error: { ICRC ABRT }
Jul 19 07:48:58 msa-nas1 kernel: [485180.950814] ata5: soft resetting link
Jul 19 07:48:58 msa-nas1 kernel: [485181.128420] ata5.00: configured for UDMA/33
Jul 19 07:48:58 msa-nas1 kernel: [485181.137482] ata5.01: configured for PIO0
Jul 19 07:48:58 msa-nas1 kernel: [485181.137505] ata5: EH complete
これにご協力いただきありがとうございます。
編集する:
まあ、私はata5と思ったドライブの1つのケーブルを交換しました。
lrwxrwxrwx 1 root root 0 Jul 27 19:26 sde -> ../devices/pci0000:00/0000:00:14.1/ata5/host4/target4:0:0/4:0:0:0/block/sde
lrwxrwxrwx 1 root root 0 Jul 27 19:26 sdf -> ../devices/pci0000:00/0000:00:14.1/ata5/host4/target4:0:1/4:0:1:0/block/sdf
2つ目はマザーボードに直接接続されたSSDドライブです。私のオプションは何か知っていますか? smartctlは両方のドライブを確認しました。どちらも問題ありません。
編集2:
問題はSSDによるものではないと仮定し、他のドライブとSATAケーブルを他のシステムでうまく機能する部品に交換しました。それでもエラーが発生します。
ドライバの問題を識別する方法、マザーボードに問題がありますか?
編集3:SSDドライブのSMARTログに何かが見つかりました。
212 SATA_PHY_Error 0x0032 100 100 --- Old_age Always - 426
SATA PHYエラーとはどういう意味ですか?
答え1
問題を解決するために取った手順:
- BIOSアップデート
- BIOSでSATA IDEコンボモードを無効にします。この助けを借りて
- 関連カーネル文書を読むカーネルパラメータ、オンラインのすべてのソリューションにパラメータが追加されるためです。
- 私はSSDが実際にSATA速度3.0Gbpsしかサポートしていないことを発見しました。良いシェルスクリプト
for i in `grep -l Gbps /sys/class/ata_link/*/sata_spd`; エコリンク "${i%/*}" 速度 `cat $i` cat "${i%/*}"/device/dev*/ata_device/dev*/id | perl -nE 's/([0-9a-f]{2})/print chr hex $1/gie' | echo "" デバイス `string` カット -f 1-3 完璧
- Grub構成で、SSDドライブのSATAポートを最大速度3.0に設定します。
vi /etc/default/grub
SATAポート7(My SSD)のみが3Gbpsを使用できるように、その行のパラメータを変更しました。
GRUB_CMDLINE_LINUX_DEFAULT="libata.force=7:3.0G 静か"
グラップを更新して再起動してください
グラップアップデート 再起動
この問題に対する解決策は私に長い道のりをもたらした。私は基本的に一日ですべてを最初から始めました。
その過程で見つかった問題は次のとおりです。
- 私は私を確認しましたインテリジェント統計毎日比較してみてください。例外が引き続き発生しても、エラー数は増加しません。
- 私のSSDは実際にカーネル例外を引き起こしました。このスクリプトは私にたくさん役立ちました。どのATAデバイスが実際にシャーシのどのハードドライブであるかを特定する
- 私のSSDと他の2つのドライブは完全に1つにあります。無効な速度設定(UDMA)
root@msa-nas1:~# sudo hdparm -I /dev/sd{a,b,c,d,e,f,g} | DMA: mdma0 mdma1 mdma2 udma0 udma1 udma2 udma3 udma4 udma5 *udma6 DMA: mdma0 mdma1 mdma2 udma0 udma1 udma2 udma3 udma4 udma5 *udma6 DMA: mdma0 mdma1 mdma2 udma0 udma1 udma2 udma3 udma4 udma5 *udma6 DMA: mdma0 mdma1 mdma2 udma0 udma1 udma2 udma3 udma4 udma5 *udma6 DMA: mdma0 mdma1 mdma2 udma0 udma1 *udma2 udma3 udma4 udma5 udma6 DMA: mdma0 mdma1 mdma2 udma0 *udma1 udma2 udma3 udma4 udma5 udma6 DMA: mdma0 mdma1 mdma2 udma0 udma1 *udma2 udma3 udma4 udma5 udma6
- dmesgログには、40線ケーブルに関するいくつかの奇妙なメッセージが表示されます。これらのメッセージは実際にはもう存在しませんが、2つの異なる新しいケーブルを購入しましたが、役に立ちませんでした。
[1.193091] ata5.01: ATA-8: SanDisk SD6SF1M128G1022I, X231200, 最大 UDMA/133 [1.193095] ata5.01: 250069680 セクタ、もう1つ: LBA48 NCQ(深さ0/32) [1.193743] ata5.00: 40線ケーブルによりUDMA/33に制限 [1.193746] ata5.01:40線ケーブルのためUDMA / 33に制限
- Grubは最後の2つのドライブのための興味深いカーネルをロードします。
pata_atiixp
。 AHCIドライバを待っています。
[1.022724]scsi4:pata_atiixp [1.022834]scsi5:pata_atiixp [1.022887] ata5: PATA 最大 UDMA/100 cmd 0x1f0 ctl 0x3f6 bmdma 0xf100 irq 14 [1.022888] ata6: PATA 最大 UDMA/100 cmd 0x170 ctl 0x376 bmdma 0xf108 irq 15
- 消費電力を確認してみましたが、電力量を超えたか、超過しなかったかを比較してみました。近くにもない。
- 他のコンピュータの同じモデルSSDと交換しました。まったく同じモデルです。それでも同じエラーが発生します。
- SSD! !実際には非常に遅いので、UDMA出力についてはhdparmが実際に正しいです。
root@msa-nas1:~# hdparm -t -T /dev/sdf /dev/sdf: タイミングキャッシュ読み取り:2.00秒あたり2144 MB = 1072.18 MB /秒 タイミングバッファリングされたディスクの読み取り:3.60秒で8 MB = 2.22 MB /秒
頑張ったサンドディスクに問い合わせる、私に例外を与えたのは彼らのハードドライブだったが、成功は収まらなかった。まったく同じ問題を持つ人を見つけることはできませんが、多くの人が同様の問題を経験しています。、ついに試しました。それらのいくつか提案された解決策はいくつか混在していることがわかりました。今はすべてが完全に理解され、後で誰もがよりよく知っていると思います。
答え2
このようなATAエラーは、確かにハードウェアエラーが原因で発生します。
"smartctl -a"を使用して、デバイスログで再割り当てされたセクタまたはエラーを確認できます。 UDMA_CRC_Error_count プロパティをチェックして、ケーブルまたはアダプタに障害があるかどうかを確認することもできます。
ataデバイスがRAIDの一部である場合は、RAIDからそのデバイスを削除し、bonnie ++を使用してパフォーマンスの問題を確認するか、少なくともhdparm -tを使用して他のデバイスと比較して直接確認します。
ata5のデバイスを見つけるには、次のコマンドを試してください。 ls -l /sys/block/ |
デバイスを見つけることができるataデバイスのリストが提供されています。