数日ごとに異なる時間にシステムが狂ったように交換が開始され、負荷が高すぎてシステムが非常に遅く応答します。ある時は回復するのに4時間待ち、いくつかの時はMagic SysRqキーを使って再起動またはシャットダウンしました(はい、カーネルはまだ反応して反応しました)。スワップ領域とオペレーティングシステムは、ミラー化されたSSDのペアにあります。
システムが異常になると、kswapd
CPU使用率は常に最も高く、最上位に近い残りのタスクが変更されます。これはシステムが異常になったときの出力例です
。top
システムのメモリ使用量は約4.5GBが正常です。
時々キャッシュの削除問題を解決する。他の時にはそれほど多くありません。場合によっては、新しいプロセスを停止するとシステムの復元操作が開始されますが、時には停止cron
(いくつかの一般的なプロセスがスケジュールされている)やnagios
(通常のプラグイントリガー)のように動作しないことがあります。
場合によっては、OOMキラーがいくつかのメモリを回復するためにいくつかのプロセスを終了することがありますが、これは常にシステムを変更するわけではありません。
システムの負荷は長い間実際には変更されておらず、突然これが発生し始めます。カーネル4.16.*にアップグレードしたときに始まったと思いましたが、カーネル4.15.*に戻っても解決されませんでした。
私はシステムがいつ奇妙になり始めるのかを明確に見ることができるさまざまな情報を定期的に収集するスクリプトを作成しました。現時点では、次にシステムに問題があるときに提供するデータはありません。
私が書いたスクリプトに書き込まれたロードプロセスは次のとおりです。 進捗履歴の読み込み
「高負荷の問題を解決してみてください」というメッセージが表示されたら、次の方法でキャッシュを削除しようとしています。sync;echo 3 > /proc/sys/vm/drop_caches
私が何を見るべきかというアイデアはありますか?何が起こっているのかを理解するのに役立ちます。ありがとう
答え1
システムのさまざまなポイントでメモリが不足しているようです。 OOMキラーイベントとスワップ使用量を見ると、これがわかります。
しかし、16GB RAM未満でMythTV+MySQL+Nagios+Apache、pserver、CVS、シーンは同じサーバー上で別のもの(top
出力から推測したもの)を実行することが多すぎる可能性があることがわかります。 RAMとI/Oから。
私たちはまた、Nagiosにどれだけのイベントがあり、どのように予定されているのかわかりません。時間が短すぎてイベントが多すぎて、完全に動作する前に発射され始め、どんなに強力であっても、すべてのマシンを食べます。機械が不足し始めると、完全に動作する時間がなくなる可能性があり、突然多数のNagios検査が行われます。結論はあなたがcronjobを持っていると言ったことです...
より多くのリソースを確保し、これらすべてのサービスを含むいくつかのマシンおよび/または仮想マシンを実行することを考えてみましょう。コンシューマコンピュータはそれほど多くのI / Oを処理することはできません。
明らかに、ある時点では、利用可能なリソースを管理するために、NagiosとMySQLの適切な構成管理/ DBA介入も実行する必要があります。
これらすべてを構成する方法は、この回答の範囲外です。古いことわざのように、すべての卵を1つのバスケットに入れないでください。
PS。各プロセスが使用しているメモリ量をおおよそのものにするには、ここの一番上の図を読んでください。より多くのスワップスペースを使用している可能性がありますが、少なくとも使用していることがわかります。計算してみてください。その上部は、RAM計算がシステムに必要なものよりはるかに低いことを示す非常におおよその指標です。
PS2。私はほとんどの状況を推測しており、明らかにあなたの特定の構成を知らない。テキストを一般的な推奨事項ガイドとして検討してください。