slurm

slurm - slurmctld/slurmd に問い合わせて、正しい slurm.conf バージョンを使用していることを確認できますか?
slurm

slurm - slurmctld/slurmd に問い合わせて、正しい slurm.conf バージョンを使用していることを確認できますか?

私が直面している問題は、slurmctldとslurmdが同じslurm.confファイルを使用しているという点で同期しないことです。したがって、次のような結果が得られます。 error: Node node1 appears to have a different slurm.conf than the slurmctld. This could cause issues with communication and functionality. Please review both files and make sure they are the s...

Admin

PCにSlurmをインストールできない
slurm

PCにSlurmをインストールできない

Ubuntu PCにslurmをインストールしようとしています。だから上記の指示に従いました。ここ 私は次のことをしました - sudo apt update -y sudo apt install slurmd slurmctld -y mkdir sudo /etc/slurm-llnl ちなみに、ステップ3は私が直接見つけました。 sudo chmod 777 /etc/slurm-llnl sudo cat << EOF > /etc/slurm-llnl/slurm.conf ClusterName=localcluster ...

Admin

slurm クラスターに対する qsub と同様の動作
slurm

slurm クラスターに対する qsub と同様の動作

私は最近slurmに切り替えてqsubのように動作するジョブ送信ツールを探しています。 パイプを介して入力を受け取ります。 出力を標準出力に印刷します。 例: for n in `seq 1 10`; do echo "echo $n" | qsub done 各echoコマンドはクラスタに送信され、出力は1..10(おそらくランダムな順序)でなければなりません。 これまではできます。 sbatchを使用してジョブを並列に送信しますが、出力がstdoutに出力されるかどうかわからない srunを使ってジョブを送信すると、順番に1つずつ動作し...

Admin

slurmで実行すると、bashのforループは無限に実行されます。
slurm

slurmで実行すると、bashのforループは無限に実行されます。

次のコードブロックを含むedit.shというbashスクリプトがあります。 z=$(tail -1 mol-pos-1.xyz | awk '{print $NF}') echo "before loop: z is $z" >> log for ((r=0; $(echo "$z>20" | bc -l); r++)); do echo "entering loop" >> log ll=$(tail -n 1 mol-1.restart) if echo "$ll" | grep -q "&a...

Admin

bsub は while ループでは使用されません。
slurm

bsub は while ループでは使用されません。

次のコマンドを実行しようとしましたが、エラーが発生しました。 syntax error near unexpected token `do' 注文する: bsub -q XXX -P YYY -J ZZZ -R "rusage[mem=10000,scr=5000]" -R "span[hosts=1]" -n 2 -o lsf.out -e lsf.er while read -r line; dofilename=$(echo $line | awk '{print $1}'); content=$(echo $line | cut -d ' ' ...

Admin

ジョブ名に基づいて複数のジョブをキャンセルする方法
slurm

ジョブ名に基づいて複数のジョブをキャンセルする方法

私はクラスタで複数のジョブを実行していますが、ジョブIDの代わりに名前に基づいて複数のジョブをキャンセルしたいと思います。 slurmドキュメントを読み、scancel -n jobnameを使用してキャンセルできることがわかりましたが、1つずつ削除する代わりに一括削除したいと思います。 slurm ジョブ画面のジョブ名は次のとおりです。 spc_2.30 spc_3.20 spc_3.10 spc_3.00 spc_2.40 spc_3.30 spc_3.20 spc_3.10 spc_2.50 spc...

Admin

Ubuntu 22.04でSlurm cgroupsプラグインのトラブルシューティング
slurm

Ubuntu 22.04でSlurm cgroupsプラグインのトラブルシューティング

私は直面しています挑戦的な質問そしてSlurm cgroupsプラグインUbuntu 22.04を実行しているシステムで。我々は比較的初めてSlurmに触れ、複雑なコンピューティングタスクでリソースをよりよく管理するためにSlurmを使い始めました。しかし、特にUbuntu 22.04ノードでcgroupsプラグインに問題が発生しました。 私たちが経験している状況は次のとおりです。 最初はノード(2つはUbuntu 22.04を使用し、1つはUbuntu 18.04を使用)でcgroups V2プラグインを試しましたが、成功しませんでした。 Ubuntu...

Admin

wget - クラスタ内の複数のノードから複数のファイルをダウンロードします。
slurm

wget - クラスタ内の複数のノードから複数のファイルをダウンロードします。

こんにちは。正確には、279個のファイルを一度にダウンロードしようとしています。それぞれはBAMサイズです(〜90GB)。私が作業しているクラスタには複数のノードがあり、幸いにも一度に複数のインスタンスを割り当てることができます。 このような状況では、wgetバッチファイル(バラより以下の例)独立した実行のために各ダウンロードを別々のノードに割り当てます。 バッチファイル.txt <https_link_1> -O DNK07.bam <https_link_2> -O mixe0007.bam <https_link_3&gt...

Admin

私のbashパイプラインで-resumeオプションを作成する
slurm

私のbashパイプラインで-resumeオプションを作成する

依存関係のあるさまざまなSLURMジョブを送信するbashパイプラインを作成しています(説明のとおり)。ここまたは下)。ジョブが競合している場合、失敗したジョブを正常に完了するには、前のジョブをすべて再実行する必要があります。失敗したタスクに直接戻る「回復」オプションを作成するにはどうすればよいですか? job1=$(sbatch ...) # no dependency job2=$(sbatch --dependency=afterany:$job1 ...) # dependent on job1 success - PD meanwhile job...

Admin

Bashスクリプト - Nプロセスが常にslurmで起動されることを確認する
slurm

Bashスクリプト - Nプロセスが常にslurmで起動されることを確認する

仕事 このコマンドを使用して、リモート・システムで開始されたM個のジョブ/コマンドのリストから、srunすべてのM個のジョブが開始されるまで、常にN個のジョブが実行されているか要求されていることを確認します(N <= M)。 やる気 (他の提案につながる可能性があるため含まれています)私は現在、2段階のプロセスで実行されている一連のシミュレーションを実行する必要があります。両方のステップは、MSTR_FILEシミュレーションに関する基本情報を含めることに基づいています。 ステップ1:次の内容に基づいてMSTR_FILEシミュレーションに必要なディレク...

Admin

Linuxのプロセスに適用されたすべてのcgroupを照会するためのAPI
slurm

Linuxのプロセスに適用されたすべてのcgroupを照会するためのAPI

私は独自の最大アクセス可能メモリを知る必要があるいくつかのソフトウェアを開発しています。 Linuxでは、cgroupによって異なります。私が収集したところ、プロセスは/proc/self/cgroup現在のメモリcgroupの1つを読み取って自分のメモリcgroupを決定できます。しかし、実際にはcgroup階層があり、プロセスはすべてのcgroupによって制限されます。現在のプロセスのすべてのcgroupに適用される最小空きメモリを決定する方法は? たとえば、Slurm を使用している場合は、cat /proc/self/cgroup次を返します。 [....

Admin

WSL2 Ubuntuの実装では、SLURM GRES用のNvidaデバイスを探しています。
slurm

WSL2 Ubuntuの実装では、SLURM GRES用のNvidaデバイスを探しています。

何か奇妙なことを試しています。 4つのコンピューティングノードでslurmクラスタを設定しました。そのうちの2台はWSL2を実行するWindows 11コンピュータで、動作しています。 これで、SLURMクラスタにGPUサポートを追加しようとしています。デフォルトのubuntu 22.04システムにある2つのコンピューティングノードの場合、nvidiaデバイスは/ dev / nvidia [0-3]とマークされていますが、WSL2(Ubuntu 22.04)では/ dev /にGPUと通信する項目はありません。 両方のコンピュータのハードウェアは異なります...

Admin

Slurm は QoS 制限を維持しません。
slurm

Slurm は QoS 制限を維持しません。

クラスタにQoS制限を設定しようとしています。特に誰もが特定のパーティションにジョブを送信できないようにしたいと思います。だから私はパーティションでCPU制限を有効にしましたが、期待どおりに機能しましたが、Slurmを再起動しても制限が保持されないことがわかりました。これは正常ですか? $/opt/slurm/bin/scontrol update PartitionName=login-queue QoS=login-node $scontrol show partition login-queue PartitionName=login-queue ...

Admin