HPCでIMB 2017とHPCC 1.5.0のベンチマークを実行して、すべてが正しく設定されていることを確認したいと思います。
私たちはそれぞれ16個のコアと32GBのメモリを備えた32個のコンピューティングノードを持っています。各ノードには、ポート速度が40 Gb / sのqlogic infinibandカードがあります。
使用されるオペレーティングシステムは、RHEL 6.5およびIBMプラットフォームHPC 4.2です。
Ofed 用途: IntelIB-OFED.RHEL6-x86_64.3.5.2.34
GCC:GCCバージョン4.4.7
IBM Platform MPI(PMPI)とOpenMPI 2.0.1(OMPI)を使用してIMBとHPCCをコンパイルしました。
IMB
InfinibandリンクでPMPIとOMPIを使用してIMBベンチマークを実行するとき#--------------------------------------------------- # Benchmarking PingPong # #processes = 2 #--------------------------------------------------- #bytes #repetitions t[usec] Mbytes/sec 0 1000 1.51 0.00 1 1000 1.51 0.63 ... ... ... ... 2097152 20 675.20 2962.09 4194304 10 1320.45 3029.26
3029MB/sのスループットは4000Mb/sに近いと期待しました。これは正しいですか?
私が使ったHPCCこのウェブサイトテスト構成ファイルを生成します。
25未満のノードを使用してベンチマークを実行すると、テストに問題はありません。テストが完了するのを待ちませんが、問題は、すべてのノードでベンチマークを開始したときに2〜5秒後にこのエラーが発生することです。メッセージ:compute014.6359Exhausted 1048576 MQ irecv request descriptors, which usually indicates a user program error or insufficient request descriptors (PSM_MQ_RECVREQS_MAX=1048576)
ベンチマークが終了して終了します。同じノードではなく、毎回異なるノードです。どんなアイデアがありますか?
以下は、hpccベンチマークを開始するために使用されるコマンドです。OMPI
:mpirun -np 512 --display-allocation --mca btl self,sm --mca mtl psm --hostfile hosts32 /shared/build/hpcc-150-blas-ompi-201/hpcc hpccinf.txt
PMPI:
mpirun -np 512 -PSM -hostfile hosts32 /shared/build/hpcc-150-blas-pmpi/hpcc hpccinf.txt
より多くの情報が必要な場合はお知らせください。