Dell PowerEdge R210でArch Linuxを実行しています。実行されるスクリプトがほとんどないため、負荷が高くなりません。 Webサービスなどのソフトウェアはなく、基本システムのみがあります。サーバーは何の変更もなく長い間うまくいきましたが、数日に一度はランダムにシャットダウンし始めました。サーバーは信頼できるUPSで保護されていますが、UPSなしで電源に直接接続してもサーバーがシャットダウンし続けるため、電源の問題ではありません。サーバーがシャットダウンするまで、毎分センサーユーティリティを実行して温度を監視しました。問題なく、すべてのセンサーの温度が30度に近いことがわかりました。では発熱問題ではないですね。シャーシはipmiが有効になっているため、シャットダウンするたびに "power on" ipmiコマンドを実行でき、サーバーが起動して正常に実行されます。
"restart_cause"には何もありません:
$ ipmitool -H 10.5.5.32 -U root -I lanplus chassis restart_cause
System restart cause: unknown
シャーシログには何もありません:
$ ipmitool -H 10.5.5.32 -U root -I lanplus sel list
1 | 07/23/2019 | 06:33:43 | Event Logging Disabled #0x72 | Log area reset/cleared | Asserted
2 | 07/24/2019 | 09:51:50 | Physical Security #0x73 | General Chassis intrusion () | Asserted
3 | Pre-Init |0000000032| Physical Security #0x73 | General Chassis intrusion () | Asserted
4 | Pre-Init |0000000037| Physical Security #0x73 | General Chassis intrusion () | Deasserted
5 | 07/24/2019 | 11:29:10 | Physical Security #0x73 | General Chassis intrusion () | Asserted
6 | 07/24/2019 | 11:29:15 | Physical Security #0x73 | General Chassis intrusion () | Deasserted
以下は「最終」コマンド出力です。
$ last -x
user pts/0 10.5.5.25 Wed Jul 31 08:31 - 09:38 (01:07)
root ttyS1 Wed Jul 31 08:23 - 09:38 (01:14)
reboot system boot 5.2.1-arch1-1-AR Wed Jul 31 08:23 - 09:38 (01:15)
shutdown system down 5.2.1-arch1-1-AR Tue Jul 30 20:17 - 08:23 (12:06)
システムログには何もありません。
カーネルログレベルをデバッグレベルに設定しましたが、終了する前にコンソール出力に1つのメッセージしか表示されません。
reboot: Power down
「再起動:電源を切る」が何を意味するのかを説明できる人はいますか?閉鎖の原因は誰ですか?この非常に奇妙な問題をデバッグする方法を知っている人はいますか?
答え1
reboot: Power down
reboot -fp
通常のシャットダウンプロセスが完了すると、コマンドが実行されていることを示すことができます。
出力は、last -x
シャットダウンが適切であることを示します。当時誰もログインしていない場合は、誰かが4秒未満の間電源ボタンを押すACPI電源ボタンイベントによってトリガーされる可能性があります。
シャーシログは、サーバーシャーシが約1週間前に開かれたことを示します。直接行っていない場合は、「変更はありません」という仮定に疑問を提起できます。