ネットワークカードが不安定です。問題を解決する方法は?

ネットワークカードが不安定です。問題を解決する方法は?

私のネットワーク接続が不安定です。スイッチからサーバーに接続しているようですが、問題を解決する方法がわかりません。設定は次のとおりです。

スイッチは、N5860-48SC、48ポートイーサネットL3データセンタースイッチ、48 x 10Gb SFP +(8 x 100Gb QSFP28を含む)です。サーバーは、光ファイバーケーブルを介して100Gポートの1つに接続されます。そのポートからサーバーに移動する必要があると思うのは、銅線を使用して10Gポートに接続されている他のシステムに問題がないためです。

サーバーは、100G NICを搭載したIntelベースのサーバーです - lspciとethtoolの表示:

# lspci
...
51:00.0 Ethernet controller: Intel Corporation Ethernet Controller E810-C for QSFP (rev 02)
51:00.1 Ethernet controller: Intel Corporation Ethernet Controller E810-C for QSFP (rev 02)
...
# ethtool ens4f0
Settings for ens4f0:
        Supported ports: [ FIBRE ]
        Supported link modes:   25000baseCR/Full
                                25000baseKR/Full
                                25000baseSR/Full
                                50000baseCR2/Full
                                100000baseSR4/Full
                                100000baseCR4/Full
                                100000baseLR4_ER4/Full
                                50000baseSR2/Full
                                100000baseSR2/Full
                                100000baseCR2/Full
        Supported pause frame use: Symmetric
        Supports auto-negotiation: No
        Supported FEC modes: None
        Advertised link modes:  25000baseSR/Full
                                50000baseCR2/Full
        Advertised pause frame use: No
        Advertised auto-negotiation: No
        Advertised FEC modes: None
        Speed: 100000Mb/s
        Duplex: Full
        Auto-negotiation: off
        Port: FIBRE
        PHYAD: 0
        Transceiver: internal
        Supports Wake-on: d
        Wake-on: d
        Current message level: 0x00000007 (7)
                               drv probe link
        Link detected: yes

他のシステム(1G NIC経由)でpingするのは奇妙です。時にはアクセスできず、時には非常に長いことがあります。

...
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=560 ttl=64 time=0.297 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=561 ttl=64 time=0.284 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=562 ttl=64 time=0.231 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=563 ttl=64 time=0.280 ms
From 192.168.50.29 (192.168.50.29) icmp_seq=567 Destination Host Unreachable
From 192.168.50.29 (192.168.50.29) icmp_seq=568 Destination Host Unreachable
From 192.168.50.29 (192.168.50.29) icmp_seq=569 Destination Host Unreachable
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=570 ttl=64 time=0.423 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=571 ttl=64 time=0.275 ms
...
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=591 ttl=64 time=0.298 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=592 ttl=64 time=0.267 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=598 ttl=64 time=1020 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=599 ttl=64 time=0.337 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=600 ttl=64 time=0.260 ms
...

最後に /var/log/messages:

# cat messages
Aug 28 00:10:21 knox rsyslogd: [origin software="rsyslogd" swVersion="8.2102.0" x-pid="785" x-info="https://www.rsyslog.com"] rsyslogd was HUPed
Aug 29 11:25:09 knox kernel: [2160313.695273] ice 0000:51:00.0 ens4f0: NIC Link is Down
Aug 29 11:25:09 knox kernel: [2160313.791123] ice 0000:51:00.0 ens4f0: NIC Link is up 100 Gbps Full Duplex, Requested FEC: RS-FEC, Negotiated FEC: RS-FEC, Autoneg Advertised: Off, Autoneg Negotiated: False, Flow Control: None
Aug 29 14:28:17 knox kernel: [2171301.703959] ice 0000:51:00.0 ens4f0: NIC Link is Down
Aug 29 14:28:17 knox kernel: [2171301.808407] ice 0000:51:00.0 ens4f0: NIC Link is up 100 Gbps Full Duplex, Requested FEC: RS-FEC, Negotiated FEC: RS-FEC, Autoneg Advertised: Off, Autoneg Negotiated: False, Flow Control: None
Aug 31 21:51:47 knox kernel: [2370711.058542] ice 0000:51:00.0 ens4f0: NIC Link is Down
Aug 31 21:51:47 knox kernel: [2370711.155567] ice 0000:51:00.0 ens4f0: NIC Link is up 100 Gbps Full Duplex, Requested FEC: RS-FEC, Negotiated FEC: RS-FEC, Autoneg Advertised: Off, Autoneg Negotiated: False, Flow Control: None

これは問題とは関係ないかもしれませんが、確かに私が手動で行うことはできません。

---編集する---

気づいたもう一つのことは、パケットが音なしで失われるようです。シーケンス番号が7から16に、24から30にジャンプすることを確認してください。

# ping knox
PING knox.comind.io (192.168.50.7) 56(84) bytes of data.
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=1 ttl=64 time=0.374 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=2 ttl=64 time=0.233 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=3 ttl=64 time=0.267 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=4 ttl=64 time=0.234 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=5 ttl=64 time=0.277 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=6 ttl=64 time=0.301 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=7 ttl=64 time=0.234 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=16 ttl=64 time=0.273 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=17 ttl=64 time=0.224 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=18 ttl=64 time=0.224 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=19 ttl=64 time=0.312 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=20 ttl=64 time=0.291 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=21 ttl=64 time=0.275 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=22 ttl=64 time=0.282 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=23 ttl=64 time=0.243 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=24 ttl=64 time=0.274 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=30 ttl=64 time=0.260 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=31 ttl=64 time=0.497 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=32 ttl=64 time=0.280 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=33 ttl=64 time=0.273 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=34 ttl=64 time=0.283 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=35 ttl=64 time=0.273 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=36 ttl=64 time=0.297 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=37 ttl=64 time=0.244 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=38 ttl=64 time=0.273 ms

答え1

提案:

  1. systemd-networkd(ifupdownのシステム翻訳)を使用して設定を確認してください。

    networkctl -a 状態

必要なものを分析します(このコマンドはsystemd-networkdの一部です)。これがまさに/etc/network/interfacesをスクリプト化したいターゲットではない場合は、ifupdownの代わりにsystemdを直接使用することをお勧めします。

  1. 失敗したサービスを確認してください。

    systemctl --type=サービス --state=失敗

  2. /etc/network/interfaces を使用し、debian 11 をお持ちの場合は、最新の systemd を使用してレガシー設定を操作 (翻訳) できます。この場合、/etc/network/interfaces を /etc/network/interfaces.save に移動し、systemd を使用してネットワークを設定します。作る:

    /etc/systemd/network/10-mynet1.network

    /etc/systemd/network/20-mynet2.network

systemd-networkdの構文は、インタフェースの構文とは異なります。

Debian 11.x には既存のネットワークシステムと新しいネットワークシステムがあります。このシステムは、Debian 11.5の最小サーバーインストールの最も簡単な場合にのみ機能します。 ifupdownと説明できない動作に慣れるのに5日かかりました。 1時間後にsystemdに移動し、すべてが期待どおりに機能しました。

ありがとう、ボグダン

答え2

まず、親切に助けてくださった方々に感謝します。このおかげで、私はより深いデバッグをするようにインスピレーションを受けました。数回振り返り、dmidecodeついに問題を悟りました。カードがPCIe 3.0スロットに接続されており、約63 Gbpsの速度しか提供できないため、当然100 Gbpsで動作するカードは問題になります。唯一のPCIe 4.0スロットに移動したとき、最初はトランシーバを検出できませんでした。この問題は、BIOSとBMCファームウェアをアップグレードすることで解決されました。

最後の問題は、1つのモジュールのみがアクティブになることです。これを有効にするには、BIOSでそのスロットのPCIeブランチを設定する必要があります。ただし、100GbpsはRAIDカード(12Gbps)でサポートされている速度よりはるかに高いため、すでにネットワークを介してディスクアレイを飽和させるのを待つことができます。

関連情報