Intel NIC E810-C 不安定な接続 - トラブルシューティング方法

2024-6-10 • tag-icon

debian network-interface

Intel NIC E810-C 不安定な接続 - トラブルシューティング方法

これは前の質問につながります。ネットワークカードが不安定です。問題を解決する方法は？。ネットワークカードは次のとおりです。

# networkctl -a status
...
● 4: ens6f0                                                                                             
                     Link File: /usr/lib/systemd/network/99-default.link
                  Network File: n/a
                          Type: ether
                         State: n/a (unmanaged)
             Alternative Names: enp24s0f0
                          Path: pci-0000:18:00.0
                        Driver: ice
                        Vendor: Intel Corporation
                         Model: Ethernet Controller E810-C for QSFP (Ethernet Network Adapter E810-C-Q2)
                    HW Address: 64:9d:99:ff:fe:c0 (FS COM INC)
                           MTU: 1500 (min: 68, max: 9702)
                         QDisc: mq
  IPv6 Address Generation Mode: eui64
          Queue Length (Tx/Rx): 320/320
              Auto negotiation: no
                         Speed: 100Gbps
                        Duplex: full
                          Port: fibre
                       Address: 192.168.50.7
                                fe80::669d:99ff:feff:fec0
                       Gateway: 192.168.50.1 (TP-LINK TECHNOLOGIES CO.,LTD.)
Failed to query link DHCP leases: Unit dbus-org.freedesktop.network1.service not found.

オペレーティングシステムは次のとおりです。

# cat /etc/*release*
PRETTY_NAME="Debian GNU/Linux 11 (bullseye)"
NAME="Debian GNU/Linux"
VERSION_ID="11"
VERSION="11 (bullseye)"
VERSION_CODENAME=bullseye
ID=debian
HOME_URL="https://www.debian.org/"
SUPPORT_URL="https://www.debian.org/support"
BUG_REPORT_URL="https://bugs.debian.org/"

マザーボードは次のとおりです。

# dmidecode -t baseboard
# dmidecode 3.3
Getting SMBIOS data from sysfs.
SMBIOS 3.3.0 present.

Handle 0x0002, DMI type 2, 15 bytes
Base Board Information
        Manufacturer: Supermicro
        Product Name: X12SPL-F
        Version: 2.00
        Serial Number: ZM224S007191
        Asset Tag: Base Board Asset Tag
        Features:
                Board is a hosting board
                Board is replaceable
        Location In Chassis: Part Component
        Chassis Handle: 0x0003
        Type: Motherboard
        Contained Object Handles: 0

NICは唯一の16レーンスロットにあります。

Handle 0x000F, DMI type 9, 17 bytes
System Slot Information
        Designation: CPU SLOT6 PCI-E 4.0 X16
        Type: x16 PCI Express 4 x16
        Current Usage: In Use
        Length: Long
        ID: 6
        Characteristics:
                3.3 V is provided
                Opening is shared
                PME signal is supported
        Bus Address: 0000:18:00.0

私が経験している問題は、明確な理由なくネットワークカードが落ち続け、どのように解決するのかわからないということです。これまでに私が持っていたものは次のとおりですdmesg。

# dmesg | grep 0000:18:00.0

[    0.754043] pci 0000:18:00.0: [8086:1592] type 00 class 0x020000
[    0.754056] pci 0000:18:00.0: reg 0x10: [mem 0x201ffa000000-0x201ffbffffff 64bit pref]
[    0.754070] pci 0000:18:00.0: reg 0x1c: [mem 0x201ffe010000-0x201ffe01ffff 64bit pref]
[    0.754080] pci 0000:18:00.0: reg 0x30: [mem 0xbb600000-0xbb6fffff pref]
[    0.754166] pci 0000:18:00.0: reg 0x184: [mem 0x201ffd000000-0x201ffd01ffff 64bit pref]
[    0.754168] pci 0000:18:00.0: VF(n) BAR0 space: [mem 0x201ffd000000-0x201ffdffffff 64bit pref] (contains BAR0 for 128 VFs)
[    0.754179] pci 0000:18:00.0: reg 0x190: [mem 0x201ffe220000-0x201ffe223fff 64bit pref]
[    0.754180] pci 0000:18:00.0: VF(n) BAR3 space: [mem 0x201ffe220000-0x201ffe41ffff 64bit pref] (contains BAR3 for 128 VFs)
[    0.754429] pci 0000:18:00.0: 126.016 Gb/s available PCIe bandwidth, limited by 8.0 GT/s PCIe x16 link at 0000:17:02.0 (capable of 252.048 Gb/s with 16.0 GT/s PCIe x16 link)
[    0.800984] pci 0000:18:00.0: CLS mismatch (64 != 32), using 64 bytes
[    1.369098] pci 0000:18:00.0: Adding to iommu group 31
[    1.819150] ice 0000:18:00.0: firmware: failed to load intel/ice/ddp/ice-e20070ffffd99fd0.pkg (-2)
[    1.819589] ice 0000:18:00.0: firmware: direct-loading firmware intel/ice/ddp/ice.pkg
[    2.140744] ice 0000:18:00.0: The DDP package was successfully loaded: ICE OS Default Package version 1.3.30.0
[    2.211858] ice 0000:18:00.0: PTP init successful
[    2.616387] ice 0000:18:00.0: DCB is enabled in the hardware, max number of TCs supported on this port are 8
[    2.616387] ice 0000:18:00.0: FW LLDP is disabled, DCBx/LLDP in SW mode.
[    2.616492] ice 0000:18:00.0: Commit DCB Configuration to the hardware
[    2.618380] ice 0000:18:00.0: 126.016 Gb/s available PCIe bandwidth, limited by 8.0 GT/s PCIe x16 link at 0000:17:02.0 (capable of 252.048 Gb/s with 16.0 GT/s PCIe x16 link)
[    2.621272] ice 0000:18:00.0 eth0: A parallel fault was detected.
[    2.621365] ice 0000:18:00.0 eth0: Possible Solution: Check link partner connection and configuration.
[    2.621513] ice 0000:18:00.0 eth0: Port Number: 1.
[    3.331319] ice 0000:18:00.0 ens6f0: renamed from eth0
[ 1052.057728] ice 0000:18:00.0 ens6f0: NIC Link is up 100 Gbps Full Duplex, Requested FEC: RS-FEC, Negotiated FEC: RS-FEC, Autoneg Advertised: Off, Autoneg Negotiated: False, Flow Control: None
[2304065.370537] ice 0000:18:00.0 ens6f0: NIC Link is Down
[2304065.470757] ice 0000:18:00.0 ens6f0: NIC Link is up 100 Gbps Full Duplex, Requested FEC: RS-FEC, Negotiated FEC: RS-FEC, Autoneg Advertised: Off, Autoneg Negotiated: False, Flow Control: None
[6567288.755539] ice 0000:18:00.0 ens6f0: Changing Rx descriptor count from 2048 to 8160
[10043828.294404] ice 0000:18:00.0 ens6f0: NIC Link is Down
[10043828.394033] ice 0000:18:00.0 ens6f0: NIC Link is up 100 Gbps Full Duplex, Requested FEC: RS-FEC, Negotiated FEC: RS-FEC, Autoneg Advertised: Off, Autoneg Negotiated: False, Flow Control: None
[10198013.280727] ice 0000:18:00.0 ens6f0: NIC Link is Down
[10198013.381243] ice 0000:18:00.0 ens6f0: NIC Link is up 100 Gbps Full Duplex, Requested FEC: RS-FEC, Negotiated FEC: RS-FEC, Autoneg Advertised: Off, Autoneg Negotiated: False, Flow Control: None

しかし、私はそれが本当の問題であるとは確信していません。私が見ている問題を説明するほど頻繁には発生しないようで、1秒も経って再び発生します。これらの問題は、次のネットワーク接続に関連しているようです。

root@pluto:/home/comind# ping knox
PING knox.comind.io (192.168.50.7) 56(84) bytes of data.
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=1 ttl=64 time=0.476 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=2 ttl=64 time=0.542 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=3 ttl=64 time=0.521 ms
...
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=26 ttl=64 time=0.544 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=27 ttl=64 time=0.554 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=34 ttl=64 time=0.539 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=35 ttl=64 time=0.402 ms
64 bytes from knox.comind.io (192.168.50.7): icmp_seq=36 ttl=64 time=0.539 ms
...

中断（それぞれの長さは約7秒icmp_sec=27と思われ、icmp_sec=34非常に頻繁に発生します。端末セッションでも同様の現象が発生します。キーボード入力が端末に表示される前に数秒間停止するようです。時々、文字が最後にある場合があります。サーバー上のNFS共有は同じ待ち時間の影響を受けます。

NFS サービスは Ganesha V3.4 で提供され、ログには次のような複数行が含まれます。

13/01/2023 01:09:46 : epoch 63a6c5e3 : knox : ganesha.nfsd-3365103[svc_946] rpc :TIRPC :EVENT :svc_ioq_flushv: 0x7fc37422f1b0 fd 10798 msg_iov 0x7fc2da2e0f60 sendmsg remaining 112 result -1 error Broken pipe (32)
13/01/2023 06:26:54 : epoch 63a6c5e3 : knox : ganesha.nfsd-3365103[svc_887] rpc :TIRPC :EVENT :svc_ioq_flushv: 0x7fc2190609f0 fd 10386 msg_iov 0x7fc447406f60 sendmsg remaining 112 result -1 error Broken pipe (32)
13/01/2023 08:06:33 : epoch 63a6c5e3 : knox : ganesha.nfsd-3365103[svc_967] rpc :TIRPC :EVENT :svc_ioq_flushv: 0x7fc1f42aec90 fd 10387 msg_iov 0x7fc2d8ac8f60 sendmsg remaining 112 result -1 error Broken pipe (32)
13/01/2023 08:36:01 : epoch 63a6c5e3 : knox : ganesha.nfsd-3365103[svc_967] rpc :TIRPC :EVENT :svc_ioq_flushv: 0x7fc11c5ee4c0 fd 10388 msg_iov 0x7fc2d8ac8f60 sendmsg remaining 112 result -1 error Broken pipe (32)
13/01/2023 08:38:04 : epoch 63a6c5e3 : knox : ganesha.nfsd-3365103[svc_1032] rpc :TIRPC :EVENT :svc_ioq_flushv: 0x7fc134b4f480 fd 10394 msg_iov 0x7fc38cde1f60 sendmsg remaining 112 result -1 error Broken pipe (32)
13/01/2023 10:55:53 : epoch 63a6c5e3 : knox : ganesha.nfsd-3365103[svc_1032] rpc :TIRPC :EVENT :svc_vc_wait: 0x7fc1e8074320 fd 10603 recv errno 104 (will set dead)

繰り返しますが、頻繁な遅延を説明するためにログにエラーが十分ではありません。

私にとっては、これがネットワークの問題であることは明らかです。サーバーはFS：からスイッチに接続されていますが、N5860-48SC残念ながらスイッチのトラブルシューティングについて十分にはわかりません。この問題を解決する方法についてヘルプ、洞察力、提案を送信していただきありがとうございます。

答え1

特に、光ファイバでリンクが不安定な場合は、ローカルエラーが発生したのか、リモートエラーが発生したのかを確認するのが非常に良いです。

次のコマンドでカウンタを確認してください。

ethtool -S ens6f0

次の内容を確認してください。

$ ethtool -S ens259f0 |grep fault
     mac_local_faults.nic: 0
     mac_remote_faults.nic: 0

そこに何もない場合は、出力を取得します。

ethtool -m ens6f0
ethtool -S ens6f0
ethtool -i ens6f0
devlink dev info

そして、利用可能な最新のファームウェア/ NVMイメージを実行していることを再確認してください。

トラブルシューティングの最後に確認する必要があるのは、スイッチログ自体でローカル（スイッチ側）エラーが発生したか、リモート（E810側）エラーが発生したかを確認することです。

E810にローカルエラーが表示された場合は、トラブルシューティングを通じてサポートチームに連絡し、上記で収集した情報を提供する必要があります。間違っている可能性がありますが、上記のいくつかの基本的な手順はいくつかの問題を解決するのに役立ちます。

答え2

これを実行中にethtool -mアラームがあることを確認し、RX / TXの電力レベルが範囲内にあることを確認してください。範囲のアラームしきい値を表示できます。

しきい値はSFPモジュールによって異なります。

答え3

ついに問題が見つかりました。光学機器にほこりがあるということです。どういうわけか誰か（名前は言及されていませんが、私には非常に近い人です！）光学装置を掃除せずに光ケーブルを抜いて再接続しました。本当にバカです。丁寧な清掃の後、すべてが完璧でした。私たちは生きて学びます。

関連情報