「残忍な」システム停止デバッグ(Alt+SysRq+B に応答しなくなりました)

「残忍な」システム停止デバッグ(Alt+SysRq+B に応答しなくなりました)

一連のシステムハングが発生しており、少なくともいくつかの手がかりを得るためにクラッシュダンプを取得したいが、すぐに再起動キーが機能しない場合でも、一般的な「magic sysrq」機能も破損します。キーボードステータスLED(Caps Lockなど)は切り替えられなくなりました。動作する唯一の方法は、コンピュータの電源ボタンを押し続けることです。

以下に、より多くの背景知識がありますが、一般的な質問は、この種の中断をデバッグする次のステップが何であるかです。つまり、少なくとも呼び出しスタック(犯人がまだ実行中であると仮定)と、好ましくはこのタイプのハングに固有の呼び出しスタックを取得する方法は何ですか?ミニ)デバッガが応答しない状態ですか?

詳細: PS/2 キーボードと共に、かなり新しいオペレーティング システム [Stock LinuxMint 16, カーネル 3.11.0-12-generic] を実行するデスクトップ コンピュータ (Dell OptiPlex 7010)。シリアルポートがありますが、残念ながらカーネルコンソールで試すことができる便利な他のマシンとヌルモデムケーブルはありません。私は(素早く)Alt-SysRqが動作しない場合、デスクトップの切り替え、ネットコンソールの使用などの試みが無駄になると疑います。

さらに、追加情報として(おそらく関係ありません)、過負荷のCIFSネットワークマウントにfscacheを使用すると中断が発生します。キャッシュは機能しますが(/proc/fs/fscache/stats にはヒットが表示されるため、構成が完全に間違っているわけではありません)、定期的な「残酷な停止」が発生します。カーネルログには、次の暗黙のエントリがあります。

FS-Cache:クッキーの種類CIFS.uniqueidがページに複数回表示される0

少なくともいくつかの中断については。メモリテストは大丈夫で、一時停止とfscacheの使用との相関はかなり堅牢であるため、一般的なハードウェアの問題(RAM、温度、宇宙船...)であると疑われます。

関連情報