IBMプラットフォームHPCでHPCCおよびIMBベンチマークを実行するときに発生する問題

2024-5-26 • tag-icon

mpi

IBMプラットフォームHPCでHPCCおよびIMBベンチマークを実行するときに発生する問題

HPCでIMB 2017とHPCC 1.5.0のベンチマークを実行して、すべてが正しく設定されていることを確認したいと思います。

私たちはそれぞれ16個のコアと32GBのメモリを備えた32個のコンピューティングノードを持っています。各ノードには、ポート速度が40 Gb / sのqlogic infinibandカードがあります。

使用されるオペレーティングシステムは、RHEL 6.5およびIBMプラットフォームHPC 4.2です。

Ofed 用途: IntelIB-OFED.RHEL6-x86_64.3.5.2.34

GCC：GCCバージョン4.4.7

IBM Platform MPI（PMPI）とOpenMPI 2.0.1（OMPI）を使用してIMBとHPCCをコンパイルしました。

IMB
InfinibandリンクでPMPIとOMPIを使用してIMBベンチマークを実行するとき

#---------------------------------------------------
# Benchmarking PingPong 
# #processes = 2 
#---------------------------------------------------
       #bytes #repetitions      t[usec]   Mbytes/sec
            0         1000         1.51         0.00
            1         1000         1.51         0.63
           ...         ...           ...         ...
      2097152           20       675.20      2962.09
      4194304           10      1320.45      3029.26

3029MB/sのスループットは4000Mb/sに近いと期待しました。これは正しいですか？

私が使ったHPCCこのウェブサイトテスト構成ファイルを生成します。
25未満のノードを使用してベンチマークを実行すると、テストに問題はありません。テストが完了するのを待ちませんが、問題は、すべてのノードでベンチマークを開始したときに2〜5秒後にこのエラーが発生することです。メッセージ：
```
compute014.6359Exhausted 1048576 MQ irecv request descriptors, which usually indicates a user program error or insufficient request descriptors (PSM_MQ_RECVREQS_MAX=1048576)
```
ベンチマークが終了して終了します。同じノードではなく、毎回異なるノードです。どんなアイデアがありますか？
以下は、hpccベンチマークを開始するために使用されるコマンドです。OMPI

：
```
mpirun -np 512 --display-allocation --mca btl self,sm --mca mtl psm --hostfile hosts32 /shared/build/hpcc-150-blas-ompi-201/hpcc hpccinf.txt
```
PMPI：
```
mpirun -np 512 -PSM -hostfile hosts32 /shared/build/hpcc-150-blas-pmpi/hpcc hpccinf.txt
```

より多くの情報が必要な場合はお知らせください。

関連情報