AWSには、8つのワーカースレッドを持つLinuxベースのクラスタがあります。
オペレーティングシステムのバージョン(/proc/versionから取得)は次のとおりです。
Linux バージョン 5.4.0-1029-aws (buildd@lcy01-amd64-021) (gcc バージョン 7.5.0 (Ubuntu 7.5.0-3ubuntu1~18.04)) #30~18.04.1-Ubuntu SMP 10月 20 :2020年09:25 UTC
ワーカーID 5が最近追加されており、私たちが見ている問題は、ワーカーへの書き込みの急増によりディスク使用率が高いと、ワーカーのデータディレクトリ(/dev/nvme1n1p1)にマウントされたディスクがパフォーマンスの低下を示すことです。 secおよびwMB / secの場合、このワーカースレッドは他の7つのワーカースレッドと比較してはるかに遅いです(このエージェントのIOPSとスループットは約40%少ない)。
この表のデータは、ピーク時間の間に同時に開始し、3時間後に終了するすべてのエージェントでiostat -xを実行して取得されます。クラスタは毎秒約2 M個のメッセージを処理します。
別の奇妙な動作は、ID 7のエージェントが他のエージェントと比較してバースト書き込み中に約40%高いiopsとスループットを持つことです。
ワーカースレッドタイプはi3en.3xlargeで、1つのNVME SSD 7.5TBが装備されています。
ジョブID 5のパフォーマンスの低下(またはエージェントID 7のパフォーマンスの低下)の原因は何ですか?
この問題により、ワーカープロセスID 5が高いiowait状態になり、一部の消費者の読み取りが遅れて停止し、ディスクから読み取りを実行すると、ワーカープロセスID 5からiowaitが約70に上がるため、書き込み操作が多い期間にこのクラスタの消費者が遅れます。 %とすべての消費者が遅れ始め、生産者はブローカーで許可されていないバッファリングされたメッセージのためにOOMを経験します。