システム:
Linux v22017032713145956 3.16.0-4-amd64 #1 SMP Debian 3.16.39-1+deb8u2 (2017-03-07) x86_64 GNU/Linux
KVM仮想化が適用されたノードで実行される仮想化サーバー。
私がしたこと:
- ファクトリオゲームサーバーを運営したい。だからダウンロードして実行してみました。 (この時が3月だった)
- 数日後、サーバーがダウンしました。サーバーが実行されているノードに関連しているかどうかをサポートするように要求するカーネルメッセージに加えて、
rcu_sched detected stalls on cpu
これに関する記録はありません。 - サポートチームは、I / Oスケジューラを次に設定する必要があると述べました。
noop
- それに応じてスケジューラを設定しました(ただし、システムファイルにnoopをエコーして一時的にのみ)。
- 一ヶ月くらいはすべてが大丈夫だった。
- 私はDebianリポジトリから定期的なアップデートを受け取ります(jessieとjessieのアップデートのみがあり、バックポートや実験的な内容はありません)。
- 私はFroxlorとGitLabリポジトリで定期的に更新します。
- 4月29日午前4時ごろ、未知の理由でサーバーがまたダウンした。
- 5月1日に、ノードのコントロールパネルからサーバーを再起動しました。
- その日また事故が起きました。今回はFactorioサーバーを起動せず、I / Oスケジューラを変更しませんでした。
追加情報
ping応答
モニターは、サーバーが次の間のpingに応答しないことを報告します。
- 2017年4月29日 04:07:30 -> 2017年4月30日 09:55:46
- 05-01-2017 11:08:52 -> 05-01-2017 11:16:54
カーネルログ
/var/log/kern.log
この期間内:
質問時間
問題は何ですか?何もインストールした記憶がありません。
このメッセージをどのようにデバッグできますかrcu_sched detected stalls
?
5月7日更新
私は友達からサーバーが奇妙に動作するというテキストメッセージを受け取りました。それでログを確認してみるとまた一時停止がありました。アップロードしました最新のログ。
5月8日アップデート
私はmemtest86+を実行しましたが、何も見つかりませんでした。ところで、過去31日間のCPUグラフを確認したところ、興味深い事実が見つかりました。 サーバーが最初にpingに応答しなくなると、他のすべてのコアがアイドル状態の間、コア2のCPU負荷が大幅に増加します。 CPU0の最高点はmemtestです。
6月7日更新
稼働時間レポート:
10:05:05 up 27 days, 20:50, 1 user, load average: 0.23, 0.25, 0.18
しかしGitLabを閉じました。 GitLabがDebianで問題を起こした経験がある人はいますか?
答え1
あなたのログによると、あなたの問題は、KVM仮想マシンにインストールされたVirtualBoxゲストの追加によるものであり、クラッシュがあるようです。
ある時点でvboxdrv
カーネルモジュールが削除され、以前のパッケージのkvm / virtioドライバに置き換えられたようです。私の考えではしかし、何らかの理由で新しいバージョンではこれが起こらないようです。
あなたが言ったようにログを提供した後、Virtual Boxコンポーネントを削除しました。
IMO、あなたは正しい措置を取った。今数日を置いて、このようなことが再び発生することを確認してください。
答え2
ログを見ると、いくつかのNMIがあります。参照:https://en.wikipedia.org/wiki/Non-maskable_interrupt
ハードウェアも確認することをお勧めします。