サーバーが応答しない場合(pingまたはsshを実行できない)、コンソール(ipmitoolを介してアクセス)も空白として表示され、出力がないか応答しません。ホストをリセット/ソフトスタートすると正常に動作し、サーバーとコンソールの両方がうまく機能します。これまでの調査過程で見つけた事実は次のとおりです。
- サーバーの負荷(CPU、メモリ、I / Oなど)はまったく表示されません。
- /var/log/messages にエラーは表示されません。
- ホストが応答しない場合、メッセージファイルの更新は停止します。
- ハードウェアの問題が確認されない
- 一部のホストはこれを頻繁に実行します(例:毎日)。
- 明らかに、これはネットワークの問題によるものではありません
この問題を解決する方法について提案をいただきありがとうございます。私が使用できるツールやログも非常に役立ちます。私たちはサプライヤーから何の支援も受けません。
答え1
kdump
サービスを有効にし、シリアルコンソールがipmiを介してクラッシュダンプを開始できるようにすることをお勧めします。マジックSysrqキー(クラッシュダンプは「c」です)。
保存されたカーネルクラッシュダンプを使用すると、問題が発生したときに何が起こったかを調べることができます。
すでにipmiを持っているので、カーネルパラメータでSOLデバイスをコンソールに設定して実行することもできます。システムログをリモートホストに送信するのも良い考えです。