システム:

システム:

システム:

Linux v22017032713145956 3.16.0-4-amd64 #1 SMP Debian 3.16.39-1+deb8u2 (2017-03-07) x86_64 GNU/Linux
KVM仮想化が適用されたノードで実行される仮想化サーバー。

私がしたこと:

  • ファクトリオゲームサーバーを運営したい。だからダウンロードして実行してみました。 (この時が3月だった)
  • 数日後、サーバーがダウンしました。サーバーが実行されているノードに関連しているかどうかをサポートするように要求するカーネルメッセージに加えて、rcu_sched detected stalls on cpuこれに関する記録はありません。
  • サポートチームは、I / Oスケジューラを次に設定する必要があると述べました。noop
  • それに応じてスケジューラを設定しました(ただし、システムファイルにnoopをエコーし​​て一時的にのみ)。
  • 一ヶ月くらいはすべてが大丈夫だった。
  • 私はDebianリポジトリから定期的なアップデートを受け取ります(jessieとjessieのアップデートのみがあり、バックポートや実験的な内容はありません)。
  • 私はFroxlorとGitLabリポジトリで定期的に更新します。
  • 4月29日午前4時ごろ、未知の理由でサーバーがまたダウンした。
  • 5月1日に、ノードのコントロールパネルからサーバーを再起動しました。
  • その日また事故が起きました。今回はFactorioサーバーを起動せず、I / Oスケジューラを変更しませんでした。

追加情報

ping応答

モニターは、サーバーが次の間のpingに応答しないことを報告します。

  • 2017年4月29日 04:07:30 -> 2017年4月30日 09:55:46
  • 05-01-2017 11:08:52 -> 05-01-2017 11:16:54

カーネルログ

/var/log/kern.logこの期間内:

質問時間

問題は何ですか?何もインストールした記憶がありません。
このメッセージをどのようにデバッグできますかrcu_sched detected stalls

5月7日更新

私は友達からサーバーが奇妙に動作するというテキストメッセージを受け取りました。それでログを確認してみるとまた一時停止がありました。アップロードしました最新のログ

5月8日アップデート

私はmemtest86+を実行しましたが、何も見つかりませんでした。ところで、過去31日間のCPUグラフを確認したところ、興味深い事実が見つかりました。 CPUロード サーバーが最初にpingに応答しなくなると、他のすべてのコアがアイドル状態の間、コア2のCPU負荷が大幅に増加します。 CPU0の最高点はmemtestです。

6月7日更新

稼働時間レポート:
10:05:05 up 27 days, 20:50, 1 user, load average: 0.23, 0.25, 0.18
しかしGitLabを閉じました。 GitLabがDebianで問題を起こした経験がある人はいますか?

答え1

あなたのログによると、あなたの問題は、KVM仮想マシンにインストールされたVirtualBoxゲストの追加によるものであり、クラッシュがあるようです。

ある時点でvboxdrvカーネルモジュールが削除され、以前のパッケージのkvm / virtioドライバに置き換えられたようです。私の考えではしかし、何らかの理由で新しいバージョンではこれが起こらないようです。

あなたが言ったようにログを提供した後、Virtual Boxコンポーネントを削除しました。

IMO、あなたは正しい措置を取った。今数日を置いて、このようなことが再び発生することを確認してください。

答え2

ログを見ると、いくつかのNMIがあります。参照:https://en.wikipedia.org/wiki/Non-maskable_interrupt

ハードウェアも確認することをお勧めします。

関連情報