Solaris ネットワークの問題のデバッグ

Solaris ネットワークの問題のデバッグ

私はSolaris 11 x86ファイルサーバーを実行しています。ファイルサーバー部分はZFS + Sambaです。これまで3~4年間、大きな問題なく運営されています。

Sambaの共有は最初にネットワーク上の他のPCに表示されます。ファイルサーバーからデータを確実に読み取ることができます。サーバーにpingを送信できます。サーバーから別のPCにpingを送信できます。サーバーでデフォルトゲートウェイをpingできます。

数週間前からファイルサーバーに書き込もうとすると、数秒(または数百メガバイト)後に共有が消えます。問題は明らかにネットワークにあります。しかし、サーバーはまだ生きています。マウス、キーボード、モニターを接続すると、まだサーバーと対話できます。

問題はハードドライブやSambaにあるようではありません。試験を終えた:

  • zpool ステータス
  • FMDM障害
  • svcadm サンバの再起動

エラーはありません。欠陥のない機器。サンバには問題がないようです。

問題が発生した後、ファイルサーバーはデフォルトゲートウェイをpingできません。ファイルサーバー上で別のコンピューターをpingできなくなりました。他のコンピュータでサーバーをpingできません。

ネットワークデバッグ手順

私は試した:

  • ifconfig skge0ダウン/ifconfig skge0アップ。
  • Solaris ボックスが接続されているスイッチを再起動します。
  • Solaris ボックスが接続されているルータを再起動します。

Solarisシステムはまだネットワークに接続されていると思うようです。 Solarisボックスをリセット(init 6)すると、共有はバックアップされますが、共有に書き換えようとする場合にのみ可能です。

私はnetstat -rnを試しました問題が発生する前と後です。すべてが正常に見えます。以下は「以降」です。

Routing Table: IPv4
Destination           Gateway           Flags  Ref     Use     Interface 
-------------------- -------------------- ----- ----- ---------- --------- 
default              10.1.10.1            UG       27        456 skge0     
10.1.10.0            10.1.10.254          U         6    2536350 skge0     
127.0.0.1            127.0.0.1            UH        2        252 lo0       

Routing Table: IPv6
  Destination/Mask            Gateway                   Flags Ref   Use    If   
--------------------------- --------------------------- ----- --- ------- ----- 
::1                         ::1                         UH      2       4 lo0   

最初の項目の「参照」列の「前」には17ではなく27があります。 「以降」の「使用」の数値は少し高く、おそらく正常です。

私はnetstat -anを試しました問題発生前後も同様である。これはより多くの手がかりを持っているかもしれません。問題が解決する前に、多くのUDP接続があります。

今後:

UDP: IPv4
   Local Address        Remote Address      State
-------------------- -------------------- ----------
    --truncated entries that are present in both before/after--
10.1.10.254.40504    10.1.10.1.53         Connected
10.1.10.254.39900    10.1.10.1.53         Connected
10.1.10.254.40129    10.1.10.1.53         Connected
10.1.10.254.37892    10.1.10.1.53         Connected
10.1.10.254.61658    10.1.10.1.53         Connected

その後、5つのアイテムが消えましたが、新しいアイテムが登場しました。

UDP: IPv4
   Local Address        Remote Address      State
-------------------- -------------------- ----------
    --Again, truncated--
10.1.10.254.53920    10.1.10.1.53         Connected

ポート 53920 がどの用途に使用されるかについての情報が見つかりません。ゲートウェイ側では、ポート53がDNSに使用されているようです。これが手がかりかどうかはわかりません。 あまり役に立たないようです。

TCPセクションの下には「確立された」モノリスがたくさんあります。今後それとも消えましたか?後ろにまたは TIME_WAIT または FIN_WAIT_1 に変換されました。これは私がすでに知っているものと一致しているようです。

ネットワーク競合に使用したコンピュータのIPへの参照のみがあります。

今後:

TCP: IPv4
   Local Address        Remote Address    Swind Send-Q Rwind Recv-Q    State
-------------------- -------------------- ----- ------ ----- ------ -----------
10.1.10.254.445      10.1.10.132.53487    64512      0 128480      0 ESTABLISHED

後ろに:

TCP: IPv4
   Local Address        Remote Address    Swind Send-Q Rwind Recv-Q    State
-------------------- -------------------- ----- ------ ----- ------ -----------
10.1.10.254.445      10.1.10.132.53487    64256      0 128480      0 ESTABLISHED

唯一の違いは、Swind(送信ウィンドウ?)列です。奇妙なことに、ステータスはまだ確立されているとマークされています。

私は別のnetstat - 実験をしました。

以前とそれ以降の唯一の違いは、共有の競合に使用したPCのIPアドレスに関連しています。

今後:

TCP: IPv4
   Local Address        Remote Address    Swind Send-Q Rwind Recv-Q    State
-------------------- -------------------- ----- ------ ----- ------ -----------
10.1.10.254.445      10.1.10.132.53613    380416      0 128480      0 ESTABLISHED

後ろに:

10.1.10.254.445      10.1.10.132.53613    65280       0 128480      0 ESTABLISHED

繰り返しますが、唯一の違いはSwind列です。数値が小さいです。

私が知っていることの終わりに達したこんなことについてです。 netstatは私がすでに知っていることを教えているようです。他のネットワークカードを購入して試したり、Solarisを再インストールする以外には知りません。誰かが私に次のステップを教えてもらえますか?

編集する

別のネットワークカードを購入して試してみます。ここまで来るのに一週間ほどかかりそうなので、これまでずっと作業します。

答え1

Netstat -an、、、 (質問の前と途中)netstat -rnが手がかりlsof を提供できます。 (開いている接続があまりにも多く表示されますか?)tcpdump役に立ちます。接続が確立される前に開始し、接続が失われ始めた場合(そしてタイムアウトの数分前)、何が起こるかを確認してください。

NFSオプションがデフォルトではなく、影響を与える可能性があることを確認してください。

  • たとえば、ハード設定の代わりにソフト設定を試してみてください。

  • すべての「非コア」オプション(コアはNFSを設定するために必要なオプション)を削除し、少しずつ挿入して、どのオプションが問題を引き起こしているかを確認します。

申し訳ありません。現在、正確な設定を提供するためにSolarisにアクセスできません。 「Solaris」キーワードと「NFS」キーワードを含むWeb検索を使用してその項目を見つけるのに役立ちます。

答え2

エクスポートされたZFSデータセットでSambaを実行すると、サーバーやクライアントの対話型セッションが終了するなど、パフォーマンスが非常に低下する可能性があることを確認しました。ただし、Solaris 11(以上)の組み込みCIFSサーバーを使用することはたくさんより良いソリューション - その後、ユーザー空間ではなくカーネルにプロトコルビットを実装します。

使用する正確な構文を忘れました。 zfs(1m)のtfmを読み、「smb」を検索する必要があります。 zfs_share(1m)もチェックしてみてください。

答え3

Solaris 11システムをメンテナンスしていますか?pkg info entireそして何を見せるpkg publisher

また、ロギングに skge インターフェイスを使用していることがわかります。私はよく知らなかったので見つけました。そのpkgはSolaris(SPARC)リポジトリにありません。しかし、GoogleはSolarisでネットワークドライバを操作したい人のブログや議論を見つけました。または、そのデバイスがサポートされていない場合は、代わりに使用してください。したがって、まだこれらの検索を試していない場合は、試してみたいと思います。

引用: Solarisハードウェア互換性リスト(HCL)

関連情報