私のcephクラスタにいくつかの問題があります。 fs_apply_latencyが高すぎると、qemu仮想マシン(cephイメージをVHDとして使用)で負荷が高くなり、応答が遅くなります。設定は次のとおりです。
- ログデバイスとして4台のHDDと1台のSSDを持つ5台のホスト
- 3x 1GBit結合インターフェースを介した相互接続
- すべての ceph トラフィックに対する個別の専用ネットワーク
以下はceph osd perfの出力です。
osd fs_commit_latency(ms) fs_apply_latency(ms)
0 17 551
1 0 18
2 44 61
3 0 915
4 0 912
5 46 646
6 0 1243
7 84 110
8 1 23
9 2 167
10 0 576
11 1 1188
12 0 105
13 0 199
14 0 536
15 0 1560
16 0 195
17 0 633
18 0 492
19 0 387
時には各OSDが最大3秒かかることがあります!このクラスタには過度の読み書き操作がありません。それにもかかわらず、さまざまなOSDで時々I / Oメッセージのブロックが発生します。
一時的な ceph.conf は次のようになります。
[global]
fsid = <removed>
mon host = mon1,mon2,mon3
mon addr = <removed>
mon initial_members = mon1,mon2,mon3
auth_cluster_required = cephx
auth_service_required = cephx
auth_client_required = cephx
filestore_xattr_use_omap = true
osd pool default size = 3
public network = <private>/24
cluster network = <private>/24
rbd default format = 2
[osd]
osd journal size = 10240 # useless since we use partitions nowadays
osd recovery max active = 1
osd max backfills = 1
遅延を減らすために何ができるか知っていますか?数週間ウェブを閲覧しましたが、実際に役立つものが見つかりませんでした。