ハードウェアコンポーネントをテストして、どのコンポーネントに欠陥があるかを確認するにはどうすればよいですか?

ハードウェアコンポーネントをテストして、どのコンポーネントに欠陥があるかを確認するにはどうすればよいですか?

質問

ハードウェアコンポーネントをテストして、どのコンポーネントに欠陥があるかを確認するにはどうすればよいですか?

詳細

私はSambaをファイルサーバーとして使用してDebianを実行している古いコンピュータを持っています。しばらく前にファイルサーバーにログインできませんでした。 Debian サーバーの画面を見ると、次のようになります。

ここに画像の説明を入力してください。

ハードウェアエラーと言われ、CPU不良のようです。しかし、私は何を言っているのか分からないので、使い切って新しいCPUを購入したくありません。

私がしたことは次のとおりです。

  • memtest 86+を使用して66時間メモリを継続的にテストしました。 65番を通過し、エラーが0個見つかりました。それで記憶力が悪いということはありえないことだと思います。しかし、システムに別のエラーが発生したのに、なぜ66時間クラッシュが発生しなかったのか少し疑問に思います。
  • 私はそれがjava TaintedJavaの問題かもしれないと思いました。 Javaを使用しているため、CrashPlanバックアップサービスを無効にしました。 4日連続サーバーがうまくいっています。 (通常15〜30分ごとにクラッシュが発生します。)クラッシュスケジュールをオフにしている間、2台のコンピュータがサーバーに接続され、50 GBのHDビデオを取得してエンコードし、サーバーのハードドライブに挿入します。問題ありません。それから一日後にまた事故が起こりました。

これで言及されていますが、これがCPUの問題であると仮定する必要がありますか?

ハードウェアコンポーネントをテストして、どのコンポーネントに欠陥があるかを確認するにはどうすればよいですか?

答え1

ハードウェアがHP、Dellなどの大規模ベンダーの製品である場合は、お客様のニーズに合わせて特定のツールがある可能性があります。私はHPと協力しており、HPにはすでに不良ハードウェアを報告するためのツールがあります。

そうでない場合、状況はより厳しく(私の経験上)、一般的な障害点であったメモリを最初からよくテストしていることです。

これでCPUについて疑問がある場合は、カーネルのコンパイルやlibreoffice、xorgなどの他の大きなソースなどの集中的なタスクにCPUを公開できます。 CPU が複数ある場合は、CPU Affinity を使用できます。

また、エラーメッセージには「mcelog --ascii」を実行するように求められます。これにより、メッセージを理解しようとすることができます。以下の2つのリンクをお読みください。ハードウェアの問題を解決するのに役立つことを願っています。

http://mcelog.org/faq.html#5

http://www.gentoo.org/doc/en/articles/hardware-stability-p1.xml

答え2

すべてのコンピュータのハードウェアの問題は追跡するのが難しく、特に古いシステムではさらにそうです。

MCEまたはMachine Check Exceptionは、ハードウェア障害が検出されたときにCPU自体によって生成された人が読み取れないエラーコードです。これには、RAM、プロセッサキャッシュ、またはシステムバス内のすべてのデバイスエラーを含めることができます。古いプロセッサの問題は試行錯誤によってのみ発見されることがよくあります。運が良ければ、テストを念頭に置いてください。

一部の最新プロセッサは理解しやすいMCEを提供していますが、使用しているプロセッサは古いAMDのようです。 Mcelogは、MCEを理解できる唯一の希望である最新のx86プロセッサ用のMCEをデコードできるLinuxデーモンです。

すでに投資している時間を考えると、最良の方法はマザーボード/ CPU /メモリを同じように古い、安価であるがまだ利用可能な設定に置き換えることです。 :)

関連情報