NFSサーバーがディスクレスノードを起動しているようです。

NFSサーバーがディスクレスノードを起動しているようです。

私は現在、ディスクレスノードを使用していくつかのMPIとCUDA計算を実行するための実験室設定を支援しています。

選択したディストリビューションはCentOS 7です。ディスクレスノードを設定するためのガイドに従いました。ここ

ディスクレスノードを正常に起動し、一部のMPIテストプログラムも実行しました。したがって、接続、ファイアウォール、nfs エクスポートなどの点で、すべてがうまく機能します。

問題は、ディスクレスノードを起動して約12時間経過すると、dhcp、tftp、およびnfsサーバーとして機能するマスターサーバーがnfsサービスからディスクレスノードを追い出すように見え、クライアントにkernel: nfs: server <servername> not responding, still tryingメッセージが表示されることです。それ以来、ディスクのないクライアントからping応答を受け取ることも中止されました。クライアントのルートファイルシステムはNFSを介して取得されるため、これはクライアントが「破損した」状態になり、Ctrl + Alt + Delまたはシステムのリセットスイッチを使用して再起動することしかできないと考えられます。いくら過ぎても、クライアントは再接続されません。マスターで/var/log/messagesを確認しながら、私のビューで次のことを見つけました Oct 8 23:30:50 myhostname kernel: NFSD: purging unused client (clientid e87d62f6)

ログの大きな部分は次のとおりです。 Oct 8 23:30:17 myhostname kernel: nfsv4 compound op ffff885c713d4080 opcnt 4 #3: 3: status 0 Oct 8 23:30:17 myhostname kernel: nfsv4 compound op #4/4: 9 (OP_GETATTR) Oct 8 23:30:17 myhostname kernel: nfsd: fh_verify(36: 01070001 00260308 00000000 996a1153 334c49c8 b8768c81) Oct 8 23:30:17 myhostname kernel: nfsv4 compound op ffff885c713d4080 opcnt 4 #4: 9: status 0 Oct 8 23:30:17 myhostname kernel: nfsv4 compound returned 0 Oct 8 23:30:17 myhostname kernel: --> nfsd4_store_cache_entry slot ffff885c72a66000 Oct 8 23:30:17 myhostname kernel: renewing client (clientid 5bbb153f/e87d62f7) Oct 8 23:30:50 myhostname kernel: NFSD: laundromat service - starting Oct 8 23:30:50 myhostname kernel: NFSD: purging unused client (clientid e87d62f6) Oct 8 23:30:50 myhostname kernel: nfsd4_umh_cltrack_upcall: cmd: remove Oct 8 23:30:50 myhostname kernel: nfsd4_umh_cltrack_upcall: arg: 4c696e7578204e465376342e31206e6f64653033 Oct 8 23:30:50 myhostname kernel: nfsd4_umh_cltrack_upcall: env0: (null) Oct 8 23:30:50 myhostname kernel: nfsd4_umh_cltrack_upcall: env1: (null) Oct 8 23:30:50 myhostname kernel: nfsd4_umh_cltrack_upcall: /sbin/nfsdcltrack return value: 0 Oct 8 23:30:50 myhostname kernel: NFSD: laundromat_main - sleeping for 57 seconds Oct 8 23:31:48 myhostname kernel: NFSD: laundromat service - starting Oct 8 23:31:48 myhostname kernel: NFSD: purging unused client (clientid e87d62f7) Oct 8 23:31:48 myhostname kernel: nfsd4_umh_cltrack_upcall: cmd: remove Oct 8 23:31:48 myhostname kernel: nfsd4_umh_cltrack_upcall: arg: 4c696e7578204e465376342e31206e76696469613031 Oct 8 23:31:48 myhostname kernel: nfsd4_umh_cltrack_upcall: env0: (null) Oct 8 23:31:48 myhostname kernel: nfsd4_umh_cltrack_upcall: env1: (null) Oct 8 23:30:50 myhostname kernel: nfsd4_umh_cltrack_upcall: cmd: remove Oct 8 23:30:50 myhostname kernel: nfsd4_umh_cltrack_upcall: arg: 4c696e7578204e465376342e31206e6f64653033 Oct 8 23:30:50 myhostname kernel: nfsd4_umh_cltrack_upcall: env0: (null) Oct 8 23:30:50 myhostname kernel: nfsd4_umh_cltrack_upcall: env1: (null) Oct 8 23:30:50 myhostname kernel: nfsd4_umh_cltrack_upcall: /sbin/nfsdcltrack return value: 0 Oct 8 23:30:50 myhostname kernel: NFSD: laundromat_main - sleeping for 57 seconds Oct 8 23:31:48 myhostname kernel: NFSD: laundromat service - starting Oct 8 23:31:48 myhostname kernel: NFSD: purging unused client (clientid e87d62f7) Oct 8 23:31:48 myhostname kernel: nfsd4_umh_cltrack_upcall: cmd: remove Oct 8 23:31:48 myhostname kernel: nfsd4_umh_cltrack_upcall: arg: 4c696e7578204e465376342e31206e76696469613031 Oct 8 23:31:48 myhostname kernel: nfsd4_umh_cltrack_upcall: env0: (null) Oct 8 23:31:48 myhostname kernel: nfsd4_umh_cltrack_upcall: env1: (null) Oct 8 23:31:48 myhostname kernel: nfsd4_umh_cltrack_upcall: /sbin/nfsdcltrack return value: 0 Oct 8 23:31:48 myhostname kernel: NFSD: laundromat_main - sleeping for 90 seconds Oct 8 23:33:18 myhostname kernel: NFSD: laundromat service - starting Oct 8 23:33:18 myhostname kernel: NFSD: laundromat_main - sleeping for 90 seconds Oct 8 23:34:48 myhostname kernel: NFSD: laundromat service - starting Oct 8 23:34:48 myhostname kernel: NFSD: laundromat_main - sleeping for 90 seconds

その後、ランドリーサービスの開始/睡眠メッセージを繰り返し続けます。

nfsstatは、badcallsなどのように、サーバーに奇妙なものを表示しません。また、NFSv3バージョンを強制しようとしました。私も同じ問題を抱えていますが、使用していないクライアントやランドリーメッセージは現在ログに表示されません(v4に追加されていると思いますか?)。

それでは、接続方法の詳細を見てみましょう。メインサーバーには2つのネットワークインターフェースがあります。 1つはrealtek(デフォルトではカーネルドライバで動作します)、もう1つはelrepoのkmod-forcedethを必要とするnvidia nforceです。すべてのサーバーサービスはnvidia-nforceカードにあります。ディスクのないノードとサーバーはギガビットスイッチを介して接続されています(ブランド名/モデルを記憶できません)。

答え1

この問題を解決しましたか?ディスクのないCentos7クライアントでも同じ問題が発生しました。すべてが12時間以上うまく機能し、すべてのクライアントがある程度同時にオフラインになりました。

dhcpd.confファイルの関連セクションに以下を追加すると、問題が解決することがわかりました。

default-lease-time infinite;
max-lease-time infinite;

centos6からcentos7に移行した後にこの問題が発生しました。 dhcpdのデフォルトIPリース時間が変更されたためです。他の値を選択することもできます。 dhcpdのマニュアルページでもこれについて説明しています。

関連情報