ログインノードは現在コンピューティングノードの1つであり、別々のキューにあります。このログインノードの/ etc / sshにカスタムSSHキーを設定しようとしています。
インストール後、スクリプトにカスタムSSHキーを導入しようとしましたが、何らかの理由でスラムが機能しなくなりました。ジョブを送信しようとすると、次のように表示されます。
sbatch: error: Batch job submission failed: Invalid account or account/partition combination specified.
systemctl restart slurmctld.service
すべてがビルドされた後、ヘッドノードでslurmを手動で再起動すると、このエラーは消えます。
root ユーザーはまだジョブを送信できます。
ユーザーはドメイン名を介してノードにSSHでアクセスでき、クラスタを再構築するたびにecdsaキーを変更することについて不平を言わないようにしたいので、同じキーセットを維持したいと思います。
もしそうなら、ログインノードにカスタムSSHキーを設定する最良の方法は何ですか?
/var/log/slurmd.log
[2023-06-13T04:01:28.145] error: Node configuration differs from hardware: CPUs=2:2(hw) Boards=1:1(hw) SocketsPerBoard=2:1(hw) CoresPerSocket=1:1(hw) ThreadsPerCore=1:2(hw)
[2023-06-13T04:01:28.604] CPU frequency setting not configured for this node
[2023-06-13T04:01:29.003] slurmd version 23.02.2 started
[2023-06-13T04:01:29.844] slurmd started on Tue, 13 Jun 2023 04:01:29 -0400
[2023-06-13T04:01:29.844] CPUs=2 Boards=1 Sockets=2 Cores=1 Threads=1 Memory=3850 TmpDisk=71667 Uptime=324 CPUSpecList=(null) FeaturesAvail=(null) FeaturesActive=(null)
数回の試行錯誤の最後に一見関連がないように見えるこのコードの導入が問題であることがわかりました。