システムの安定性の問題の根本的な原因を診断し、見つけるのに助けが必要です。すべての兆候はある種のハードウェア問題(ディスクまたはRAM)を指していますが、これまでに調査した結果、何も明らかになりませんでした。
これは、Ubuntu 20.04を実行する新しいハードウェアを備えたまったく新しいシステムです。 2x16GB RAMと2TBサムスンSSD(Samsung 970 EVO Plus)を搭載したNUC(D54250WYK / NUC8I5BEH)です。これもUbuntuを新しくインストールしたものです。システムにはドッカーエンジンと約8個のコンテナのみが取り付けられており、ほとんど取り付けられていません。
症状は、システムがしばしば完全に動作を停止することです。可能な限り一度だけシステムにSSH経由でアクセスでき、実行するすべてのコマンドは次のようになります。
-bash: /usr/bin/ls: Input/output error
場合によっては、リモートでまったくログインできず、代わりに自分のコンピュータで端末を直接開くと、端末が主にディスクがいっぱいになったりディスクに書き込めないというエラーがたくさん記録されることがあります。
再起動すると問題が解決し、問題が再発する前に1〜6日間システムが正常に実行されます。
dmesgとsyslogをチェックすると、システムが応答しなくなるまで多くのことがわかりません。ディスクが読み取り専用なので、ログを書き込めないようです。次のような他のサービスに関する苦情も確認しました。
[826122.177679] systemd[1]: This usually indicates unclean termination of a previous run, or service implementation deficiencies.
[826122.178711] systemd[1161852]: containerd.service: Failed to connect stdout to the journal socket, ignoring: Connection refused
[826122.178970] systemd[1161852]: containerd.service: Failed to execute command: Input/output error
[826122.179022] systemd[1161852]: containerd.service: Failed at step EXEC spawning /usr/bin/containerd: Input/output error
[826122.179430] systemd[1]: containerd.service: Main process exited, code=exited, status=203/EXEC
[826122.179439] systemd[1]: containerd.service: Failed with result 'exit-code'.
[826122.179568] systemd[1]: Failed to start containerd container runtime.
また、UFWファイアウォールでさまざまな要求をブロックする多くのロギングを見ることができます(一部は許可されたポートに関するものですが、なぜこれが起こるのかわかりません)。
調査結果によれば、これはハードウェアエラー(ディスクまたはメモリエラーの可能性がある)と見られます。だから私は両方のためにできるだけ多くの診断を実行しました。
smartctl
エラーは報告されておらず、SSDは正常です。badblocks
システムがうまく動作し、問題もなく、エラーもありません。fsck
間違ったシャットダウンのために再起動しない限り、問題は見つかりませんでした(即座に修正されました)。memtest86
問題なく複数のループを実行し、エラーも報告されませんでした。
この問題をよりよく診断するにはどうすればよいですか?追加のロギングを有効にできますか?原因を見つけるために使用できる他の診断ツールはありますか?
答え1
多くの調査の最後に解決策を見つけたようです。 (これまでの衝突はありません。)