IBMプラットフォームHPCでHPCCおよびIMBベンチマークを実行するときに発生する問題

IBMプラットフォームHPCでHPCCおよびIMBベンチマークを実行するときに発生する問題

HPCでIMB 2017とHPCC 1.5.0のベンチマークを実行して、すべてが正しく設定されていることを確認したいと思います。

私たちはそれぞれ16個のコアと32GBのメモリを備えた32個のコンピューティングノードを持っています。各ノードには、ポート速度が40 Gb / sのqlogic infinibandカードがあります。

使用されるオペレーティングシステムは、RHEL 6.5およびIBMプラットフォームHPC 4.2です。

Ofed 用途: IntelIB-OFED.RHEL6-x86_64.3.5.2.34

GCC:GCCバージョン4.4.7

IBM Platform MPI(PMPI)とOpenMPI 2.0.1(OMPI)を使用してIMBとHPCCをコンパイルしました。

  1. IMB
    InfinibandリンクでPMPIとOMPIを使用してIMBベンチマークを実行するとき

    #---------------------------------------------------
    # Benchmarking PingPong 
    # #processes = 2 
    #---------------------------------------------------
           #bytes #repetitions      t[usec]   Mbytes/sec
                0         1000         1.51         0.00
                1         1000         1.51         0.63
               ...         ...           ...         ...
          2097152           20       675.20      2962.09
          4194304           10      1320.45      3029.26
    

    3029MB/sのスループットは4000Mb/sに近いと期待しました。これは正しいですか?


  2. 私が使ったHPCCこのウェブサイトテスト構成ファイルを生成します。
    25未満のノードを使用してベンチマークを実行すると、テストに問題はありません。テストが完了するのを待ちませんが、問題は、すべてのノードでベンチマークを開始したときに2〜5秒後にこのエラーが発生することです。メッセージ:

    compute014.6359Exhausted 1048576 MQ irecv request descriptors, which usually indicates a user program error or insufficient request descriptors (PSM_MQ_RECVREQS_MAX=1048576)
    

    ベンチマークが終了して終了します。同じノードではなく、毎回異なるノードです。どんなアイデアがありますか?
    以下は、hpccベンチマークを開始するために使用されるコマンドです。OMPI

    mpirun -np 512 --display-allocation --mca btl self,sm --mca mtl psm --hostfile hosts32 /shared/build/hpcc-150-blas-ompi-201/hpcc hpccinf.txt
    

    PMPI:

    mpirun -np 512 -PSM -hostfile hosts32 /shared/build/hpcc-150-blas-pmpi/hpcc hpccinf.txt
    

より多くの情報が必要な場合はお知らせください。

関連情報