ファイルサーバーとして機能するESXiホストには、非常に単純なUbuntu 16 x64 VM設定があります。 NFS/SMB および MDADM がインストールされています。完全に更新されました。
“rcu_sched detected stalls on CPUs
先週、エラーとジップの欠如のために2回中断されました。
今回はスクリーンショットを撮りましたが、ESXiがVMのシャットダウンに失敗し、再起動後にMDADMアレイが再構築されるという事態がひどくなりました。これは私のハードドライブに不必要な損傷を引き起こすかどうか心配です。何が問題なのか知りたいです。仮想マシンは、1vCPUおよび4vThreads(6GB RAM)を含む多くの追加リソースを取得します。
どんなアイデアがありますか?これで、仮想マシンがバックアップされ実行されているため、必要な情報をデバッグできます。 RHELベースのディストリビューションに移行することを検討していますが、他のLinux OSで再構築するときに発生する問題を特定したいと思います。
PS:私はデフォルトのユーザーであり、私が覚えている限り、集中的な読み取り/書き込み操作を実行していません。
答え1
長すぎる。約1週間後、過熱/不適切なヒートシンク/ファンの配置によりCPUコアが失われました。
ESXiを使用している場合は、別のOSを起動して温度を確認するか、CPUクーラーの再インストールを検討してください。
この投稿の再生回数は非常に高く、この問題が発生したときにGoogleは私にほとんど情報を提供していませんでした。コメントや回答であなたの経験を共有してください!
タイムライン:
- Jiffiesに関するエラーが発生します。
- 電源ボタンを使用して再起動する必要があります
- MDADM配列の再構築 - >成功しました。
- 翌日、別のエラーが発生しました。
- 再起動/再構築に成功しました。
- 別のミス!
- 新しいオペレーティングシステムで仮想マシンを再構築します。
- 一週間ほど安定
- CPUシングルコアが死んだ!
ESXiに関するさらなる研究によると、ESXiは、私が持っていない高度なハードウェアを追加しない限り、デバイスの温度を収集しないことがわかりました(おそらくハードウェア互換性リストにあるコンピュータを使用していないため)。https://communities.vmware.com/thread/547244)。 ESXiは私のCPUを制限することができます。これで、一般的な方法ですべてのデバイス温度を確認し、それに応じて反応するKVMを使用します。さらに、ハイパーバイザーがファイルサーバーでもあるため、RW速度が大幅に向上しました。一方、以前はESXiはSMB / NFS / MDADMなどをサポートしていなかったため、ファイルサーバーVMにディスクを渡す必要がありました。私のクライアントはハイパーバイザー/ファイルサーバーと直接通信しているので、RW速度は約2〜3倍速くなりました。