SLURMクラスタでsrunを使用してコンピューティングノードを起動しました。 SSH接続が失われましたが、ノードはまだアクティブであり、GPUリソースを消費しています。このノードにどのように再接続しますか?
答え1
srun
Slurmでノードを起動しないでください。既存のノードのシェルセッションを介して対話型タスクを開始します。ノードがアクティブで、他のジョブがノードのリソースを消費しています。ユーザーがノードから切断した場合、またはtmux
同じユーティリティを使用しない限り、ジョブは終了します。screen