私はTHCPディスクレスサーバーでMPIを使用してきました。ただし、MPIを使用してジョブを実行すると、SSHが切断されたためにプロセスが終了することがあります。
client_loop: send disconnect: Broken pipe
単一の操作にエラーがないか、エラーがありません。
そして、ジョブが終了した後に各CPUにSSHを試みるとうまく接続されます。
私のソースコードはINTEL MKLライブラリを使用し、サーバーは16個のAMD Ryzen 9 5900x CPUと48GB RAMメモリで構成されており、MPICH3も使用しています。
この問題をどのように解決できますか?
sshdの切断に関連するエラーログを非決定的に見つける方法はありますか?
ありがとうございます。