ceph fsアプリケーションの遅延が長すぎるため、仮想マシンの負荷が高くなります。

2024-5-23 • tag-icon

ceph fsアプリケーションの遅延が長すぎるため、仮想マシンの負荷が高くなります。

私のcephクラスタにいくつかの問題があります。 fs_apply_latencyが高すぎると、qemu仮想マシン（cephイメージをVHDとして使用）で負荷が高くなり、応答が遅くなります。設定は次のとおりです。

ログデバイスとして4台のHDDと1台のSSDを持つ5台のホスト
3x 1GBit結合インターフェースを介した相互接続
すべての ceph トラフィックに対する個別の専用ネットワーク

以下はceph osd perfの出力です。

osd fs_commit_latency(ms) fs_apply_latency(ms) 
  0                    17                  551 
  1                     0                   18 
  2                    44                   61 
  3                     0                  915 
  4                     0                  912 
  5                    46                  646 
  6                     0                 1243 
  7                    84                  110 
  8                     1                   23 
  9                     2                  167 
 10                     0                  576 
 11                     1                 1188 
 12                     0                  105 
 13                     0                  199 
 14                     0                  536 
 15                     0                 1560 
 16                     0                  195 
 17                     0                  633 
 18                     0                  492 
 19                     0                  387

時には各OSDが最大3秒かかることがあります！このクラスタには過度の読み書き操作がありません。それにもかかわらず、さまざまなOSDで時々I / Oメッセージのブロックが発生します。

一時的な ceph.conf は次のようになります。

[global]
fsid = <removed>
mon host = mon1,mon2,mon3
mon addr = <removed>
mon initial_members = mon1,mon2,mon3
auth_cluster_required = cephx
auth_service_required = cephx
auth_client_required = cephx
filestore_xattr_use_omap = true
osd pool default size = 3
public network = <private>/24
cluster network = <private>/24
rbd default format = 2

[osd]
osd journal size = 10240 # useless since we use partitions nowadays
osd recovery max active = 1
osd max backfills = 1

遅延を減らすために何ができるか知っていますか？数週間ウェブを閲覧しましたが、実際に役立つものが見つかりませんでした。

関連情報