"rcu_schedがCPU /ジョブの中断を検出しました。" - jiffies - ESXi Ubuntu 16 FileServer Guest

"rcu_schedがCPU /ジョブの中断を検出しました。" - jiffies - ESXi Ubuntu 16 FileServer Guest

ファイルサーバーとして機能するESXiホストには、非常に単純なUbuntu 16 x64 VM設定があります。 NFS/SMB および MDADM がインストールされています。完全に更新されました。

“rcu_sched detected stalls on CPUs先週、エラーとジップの欠如のために2回中断されました。

今回はスクリーンショットを撮りましたが、ESXiがVMのシャットダウンに失敗し、再起動後にMDADMアレイが再構築されるという事態がひどくなりました。これは私のハードドライブに不必要な損傷を引き起こすかどうか心配です。何が問題なのか知りたいです。仮想マシンは、1vCPUおよび4vThreads(6GB RAM)を含む多くの追加リソースを取得します。

どんなアイデアがありますか?これで、仮想マシンがバックアップされ実行されているため、必要な情報をデバッグできます。 RHELベースのディストリビューションに移行することを検討していますが、他のLinux OSで再構築するときに発生する問題を特定したいと思います。

ここに画像の説明を入力してください。

PS:私はデフォルトのユーザーであり、私が覚えている限り、集中的な読み取り/書き込み操作を実行していません。

答え1

長すぎる。約1週間後、過熱/不適切なヒートシンク/ファンの配置によりCPUコアが失われました。

  • ESXiを使用している場合は、別のOSを起動して温度を確認するか、CPUクーラーの再インストールを検討してください。

  • この投稿の再生回数は非常に高く、この問題が発生したときにGoogleは私にほとんど情報を提供していませんでした。コメントや回答であなたの経験を共有してください!

タイムライン:

  • Jiffiesに関するエラーが発生します。
  • 電源ボタンを使用して再起動する必要があります
  • MDADM配列の再構築 - >成功しました。
  • 翌日、別のエラーが発生しました。
  • 再起動/再構築に成功しました。
  • 別のミス!
  • 新しいオペレーティングシステムで仮想マシンを再構築します。
  • 一週間ほど安定
  • CPUシングルコアが死んだ!

ESXiに関するさらなる研究によると、ESXiは、私が持っていない高度なハードウェアを追加しない限り、デバイスの温度を収集しないことがわかりました(おそらくハードウェア互換性リストにあるコンピュータを使用していないため)。https://communities.vmware.com/thread/547244)。 ESXiは私のCPUを制限することができます。これで、一般的な方法ですべてのデバイス温度を確認し、それに応じて反応するKVMを使用します。さらに、ハイパーバイザーがファイルサーバーでもあるため、RW速度が大幅に向上しました。一方、以前はESXiはSMB / NFS / MDADMなどをサポートしていなかったため、ファイルサーバーVMにディスクを渡す必要がありました。私のクライアントはハイパーバイザー/ファイルサーバーと直接通信しているので、RW速度は約2〜3倍速くなりました。

関連情報