slurmを使用してpclusterのコンピューティングノードでSSHキーを変更する

slurmを使用してpclusterのコンピューティングノードでSSHキーを変更する

ログインノードは現在コンピューティングノードの1つであり、別々のキューにあります。このログインノードの/ etc / sshにカスタムSSHキーを設定しようとしています。

インストール後、スクリプトにカスタムSSHキーを導入しようとしましたが、何らかの理由でスラムが機能しなくなりました。ジョブを送信しようとすると、次のように表示されます。 sbatch: error: Batch job submission failed: Invalid account or account/partition combination specified.

systemctl restart slurmctld.serviceすべてがビルドされた後、ヘッドノードでslurmを手動で再起動すると、このエラーは消えます。

root ユーザーはまだジョブを送信できます。

ユーザーはドメイン名を介してノードにSSHでアクセスでき、クラスタを再構築するたびにecdsaキーを変更することについて不平を言わないようにしたいので、同じキーセットを維持したいと思います。

もしそうなら、ログインノードにカスタムSSHキーを設定する最良の方法は何ですか?

/var/log/slurmd.log

[2023-06-13T04:01:28.145] error: Node configuration differs from hardware: CPUs=2:2(hw) Boards=1:1(hw) SocketsPerBoard=2:1(hw) CoresPerSocket=1:1(hw) ThreadsPerCore=1:2(hw)
[2023-06-13T04:01:28.604] CPU frequency setting not configured for this node
[2023-06-13T04:01:29.003] slurmd version 23.02.2 started
[2023-06-13T04:01:29.844] slurmd started on Tue, 13 Jun 2023 04:01:29 -0400
[2023-06-13T04:01:29.844] CPUs=2 Boards=1 Sockets=2 Cores=1 Threads=1 Memory=3850 TmpDisk=71667 Uptime=324 CPUSpecList=(null) FeaturesAvail=(null) FeaturesActive=(null)

数回の試行錯誤の最後に一見関連がないように見えるこのコードの導入が問題であることがわかりました。

関連情報