PCにSlurmをインストールできない

PCにSlurmをインストールできない

Ubuntu PCにslurmをインストールしようとしています。だから上記の指示に従いました。ここ

私は次のことをしました -

  1. sudo apt update -y
  2. sudo apt install slurmd slurmctld -y
  3. mkdir sudo /etc/slurm-llnl ちなみに、ステップ3は私が直接見つけました。
  4. sudo chmod 777 /etc/slurm-llnl
sudo cat << EOF > /etc/slurm-llnl/slurm.conf
ClusterName=localcluster
SlurmctldHost=localhost
MpiDefault=none
ProctrackType=proctrack/linuxproc
ReturnToService=2
SlurmctldPidFile=/var/run/slurmctld.pid
SlurmctldPort=6817
SlurmdPidFile=/var/run/slurmd.pid
SlurmdPort=6818
SlurmdSpoolDir=/var/lib/slurm-llnl/slurmd
SlurmUser=slurm
StateSaveLocation=/var/lib/slurm-llnl/slurmctld
SwitchType=switch/none
TaskPlugin=task/none
#
# TIMERS
InactiveLimit=0
KillWait=30
MinJobAge=300
SlurmctldTimeout=120
SlurmdTimeout=300
Waittime=0
# SCHEDULING
SchedulerType=sched/backfill
SelectType=select/cons_tres
SelectTypeParameters=CR_Core
#
#AccountingStoragePort=
AccountingStorageType=accounting_storage/none
JobCompType=jobcomp/none
JobAcctGatherFrequency=30
JobAcctGatherType=jobacct_gather/none
SlurmctldDebug=info
SlurmctldLogFile=/var/log/slurm-llnl/slurmctld.log
SlurmdDebug=info
SlurmdLogFile=/var/log/slurm-llnl/slurmd.log
#
# COMPUTE NODES
NodeName=localhost CPUs=12 RealMemory=8000 State=UNKNOWN
PartitionName=LocalQ Nodes=ALL Default=YES MaxTime=INFINITE State=UP
EOF
  1. sudo systemctl start slurmctld
  2. sudo systemctl start slurmd

今私がこれをするとき -

  1. sudo scontrol update nodename=localhost state=idle

エラーが発生します。

scontrol: error: resolve_ctls_from_dns_srv: res_nsearch error: Unknown host
scontrol: error: fetch_config: DNS SRV lookup failed
scontrol: error: _establish_config_source: failed to fetch config
scontrol: fatal: Could not establish a configuration source

編集1-

私はポールの指示に従いました。これで、次のような結果が表示されます。

(base) thoma@thoma-Lenovo-Legion-5-15IMH05H:/$ systemctl status slurmctld
● slurmctld.service - Slurm controller daemon
     Loaded: loaded (/lib/systemd/system/slurmctld.service; enabled; vendor preset: enabled)
     Active: active (running) since Tue 2024-03-05 05:57:17 CST; 2h 42min ago
       Docs: man:slurmctld(8)
   Main PID: 6509 (slurmctld)
      Tasks: 10
     Memory: 4.3M
        CPU: 2.378s
     CGroup: /system.slice/slurmctld.service
             ├─6509 /usr/sbin/slurmctld -D -s
             └─6517 "slurmctld: slurmscriptd" "" ""

Mar 05 05:58:27 thoma-Lenovo-Legion-5-15IMH05H slurmctld[6509]: slurmctld: Invalid node state transition requested for node localhost from=INVAL to=IDLE
Mar 05 05:58:27 thoma-Lenovo-Legion-5-15IMH05H slurmctld[6509]: slurmctld: _slurm_rpc_update_node for localhost: Invalid node state specified
Mar 05 06:00:07 thoma-Lenovo-Legion-5-15IMH05H slurmctld[6509]: slurmctld: Invalid node state transition requested for node localhost from=INVAL to=IDLE
Mar 05 06:00:07 thoma-Lenovo-Legion-5-15IMH05H slurmctld[6509]: slurmctld: _slurm_rpc_update_node for localhost: Invalid node state specified
Mar 05 06:01:30 thoma-Lenovo-Legion-5-15IMH05H slurmctld[6509]: slurmctld: Invalid node state transition requested for node localhost from=INVAL to=RESUME
Mar 05 06:01:30 thoma-Lenovo-Legion-5-15IMH05H slurmctld[6509]: slurmctld: _slurm_rpc_update_node for localhost: Invalid node state specified
Mar 05 06:02:13 thoma-Lenovo-Legion-5-15IMH05H slurmctld[6509]: slurmctld: Invalid node state transition requested for node localhost from=INVAL to=RESUME
Mar 05 06:02:13 thoma-Lenovo-Legion-5-15IMH05H slurmctld[6509]: slurmctld: _slurm_rpc_update_node for localhost: Invalid node state specified
Mar 05 06:02:20 thoma-Lenovo-Legion-5-15IMH05H slurmctld[6509]: slurmctld: Invalid node state transition requested for node localhost from=INVAL to=IDLE
Mar 05 06:02:20 thoma-Lenovo-Legion-5-15IMH05H slurmctld[6509]: slurmctld: _slurm_rpc_update_node for localhost: Invalid node state specified
(base) thoma@thoma-Lenovo-Legion-5-15IMH05H:/$ systemctl status slurmd
● slurmd.service - Slurm node daemon
     Loaded: loaded (/lib/systemd/system/slurmd.service; enabled; vendor preset: enabled)
     Active: active (running) since Tue 2024-03-05 05:57:17 CST; 2h 42min ago
       Docs: man:slurmd(8)
   Main PID: 6514 (slurmd)
      Tasks: 1
     Memory: 316.0K
        CPU: 22ms
     CGroup: /system.slice/slurmd.service
             └─6514 /usr/sbin/slurmd -D -s

Mar 05 05:57:17 thoma-Lenovo-Legion-5-15IMH05H systemd[1]: Started Slurm node daemon.
Mar 05 05:57:17 thoma-Lenovo-Legion-5-15IMH05H slurmd[6514]: slurmd: error: Node configuration differs from hardware: CPUs=12:12(hw) Boards=1:1(hw) SocketsPerBoard=12:1(hw) CoresPerSocket=1:6(hw) ThreadsPerCore>
Mar 05 05:57:17 thoma-Lenovo-Legion-5-15IMH05H slurmd[6514]: slurmd: slurmd version 21.08.5 started
Mar 05 05:57:17 thoma-Lenovo-Legion-5-15IMH05H slurmd[6514]: slurmd: slurmd started on Tue, 05 Mar 2024 05:57:17 -0600
Mar 05 05:57:17 thoma-Lenovo-Legion-5-15IMH05H slurmd[6514]: slurmd: CPUs=12 Boards=1 Sockets=12 Cores=1 Threads=1 Memory=7838 TmpDisk=1252975 Uptime=372 CPUSpecList=(null) FeaturesAvail=(null) FeaturesActive=(>
lines 1-16/16 (END)


答え1

あなたも奉仕を始めましたmungeか?

次のようsystemctlに実行してみてください。

sudo systemctl start munge
sudo systemctl status munge

注意を払うことをお勧めしますこのガイドUbuntu 22.04のシングルノード環境にSlurmをインストールする方法に関する記事を作成しました。

乾杯。

答え2

提供された systemctl 構成を調べると、次のことがわかります。

1-に関しては薄暗い、slurm.confで定義したハードウェア構成が正しくありません。この構成を実行するノードのハードウェア仕様は何ですか?

 (Mar 05 05:57:17 thoma-Lenovo-Legion-5-15IMH05H slurmd[6514]: slurmd: error: Node configuration differs from hardware: CPUs=12:12(hw) Boards=1:1(hw) SocketsPerBoard=12:1(hw) CoresPerSocket=1:6(hw) ThreadsPerCore>) 

この出力によると、あなたの価値はボードあたりのソケット数そしてソケットあたりのコア数しなければならない1そして6それぞれ。

2-はじめにslurmctld、初期ノードの状態は次のようになります。未知、このように。

 NodeName=localhost CPUs=12 RealMemory=30517 State=UNKNOWN PartitionName=localhost Nodes=ALL Default=YES MaxTime=INFINITE State=UP

注: "8000「あなたの実際の記憶値。 「値を試してください。8192対照的に、SlurmはMiB値を使用します:)

それからこれを変更してみてください。再起動両方薄暗いそしてslurmctldこれが役立つ場合は教えてください。

乾杯!

関連情報