Debian 11、Slurm、およびさまざまなハードウェアに基づいて新しいコンピュータクラスタを構築する予定です。クラスタはPXEを使用してネットワークの場所から起動します。クラスタは時間の経過とともに拡張されると予想されるため、新しいノードをいくらでも簡単に追加できる柔軟性が必要です。
しかし、私はslurmの経験はあまりありません。構成ファイルでノードを構成できるという私の考えには、より良い(=より動的な)方法がありますか?さらに、ノードは「ディスクがない」ため、デフォルトのホスト名は必ずしも必要ではなく、DHCPからIPアドレスを取得するため、事前にクラスタを構成することはより困難です。これを管理する方法があるはずです。
この問題についてここあちこちとグーグルで検索してみましたが、2000年代初頭以降はあまり注目されていないテーマのようです。
答え1
まず、クラスター内の各サーバーにホスト名とIPアドレスを割り当てるようにDHCPサーバーを構成します。これは、サーバーのMACアドレスを使用して簡単に実行できます。
いくつかのホスト名テンプレートオプションがあります。 Slurmは設定ファイルとコマンドで数値範囲をサポートしているため、などの名前を使用すると操作がnode001
簡単node002
になり、最大999個のノードを許可できます。sinfo -n node[001-010]
ホスト名の数字部分の後に文字は続くことはできません。
サイトの命名規則が異なる場合は、別名を slurm 構成ファイルに入れることができます。
NodeName=node001 NodeHostName=org-slurm-001