cluster

特定のリソースを消費するツールを終了するスクリプト/デーモン?
cluster

特定のリソースを消費するツールを終了するスクリプト/デーモン?

私はSGE Linuxクラスタで作業していますが、初心者はしばしばqsub(qloginhttps://gridscheduler.sourceforge.net/htmlman/htmlman1/qsub.html)。 次の特定のプログラムを終了するためのツールや方法はありますか?バブラ)ログインノードで実行するのに5分以上かかるとどうなりますか? ...

Admin

PCにSlurmをインストールできない
cluster

PCにSlurmをインストールできない

Ubuntu PCにslurmをインストールしようとしています。だから上記の指示に従いました。ここ 私は次のことをしました - sudo apt update -y sudo apt install slurmd slurmctld -y mkdir sudo /etc/slurm-llnl ちなみに、ステップ3は私が直接見つけました。 sudo chmod 777 /etc/slurm-llnl sudo cat << EOF > /etc/slurm-llnl/slurm.conf ClusterName=localcluster ...

Admin

slurm クラスターに対する qsub と同様の動作
cluster

slurm クラスターに対する qsub と同様の動作

私は最近slurmに切り替えてqsubのように動作するジョブ送信ツールを探しています。 パイプを介して入力を受け取ります。 出力を標準出力に印刷します。 例: for n in `seq 1 10`; do echo "echo $n" | qsub done 各echoコマンドはクラスタに送信され、出力は1..10(おそらくランダムな順序)でなければなりません。 これまではできます。 sbatchを使用してジョブを並列に送信しますが、出力がstdoutに出力されるかどうかわからない srunを使ってジョブを送信すると、順番に1つずつ動作し...

Admin

不足しているモジュールを見つけるシェルスクリプト
cluster

不足しているモジュールを見つけるシェルスクリプト

コンピューティングクラスタでシェルスクリプトを実行しようとしていますが、ある時点で数ヶ月前にクラスタのメジャーアップデート以降に存在しないモジュールを探しているため、エラーが発生します。モジュールは私のスクリプトにロードされないので、私のスクリプトは問題の直接の原因ではありません。 1つの仮説は、lmodキャッシュが古いが、そのキャッシュがどこにあるのかわからないということです。または、関連モジュール「intel / 2018a」がソースファイルにロードされます。 エラーの完全なメッセージは次のとおりです。 > # User specific env...

Admin

コンピュータクラスタを使用したランダムバイナリの実行
cluster

コンピュータクラスタを使用したランダムバイナリの実行

VPSが3つあります。マスター、スレーブ1、スレーブ2を想定します。 彼らの仕様は同じです。 プロセッサー: 1CPU メモリ:1GB ディスク:10GB ネットワーク:LAN内で互いに実行 メインVPSで実行されている任意のバイナリ(プロセス)をVPSと見なしたいと思います。これは、マスターVPSのワークロードがネットワークを介してスレーブVPSと共有されることを意味します。 したがって、プログラムは次の仕様のコンピュータで実行されていることがわかります。 プロセッサー: 3CPU メモリ:3GB ディスク:30GB 問題は、このようにコンピューテ...

Admin

サーバーとNFSボリューム間のHDR Infinibandネットワークスループットを最大限に活用できますか?
cluster

サーバーとNFSボリューム間のHDR Infinibandネットワークスループットを最大限に活用できますか?

私はCPUクラスタを構築するプロジェクトを進めていますが、サーバーとNFSストレージ(並列ファイルシステムではありません)はHDR InfiniBandケーブルで接続されています。このアーキテクチャでは、InfiniBandネットワークを介して適切なストレージI / Oパフォーマンスを得ることができますが、NFSはInfiniBand通信をサポートしますか?それとも、ストレージを書き込んで読み取るには、200Gイーサネット(IBネットワークではない)ファブリックを構築する必要がありますか?では、構成する必要があるものはありますか? ...

Admin

クラスタヘッドノードでlinpackを実行できません。
cluster

クラスタヘッドノードでlinpackを実行できません。

私は最近、独自のホームクラスター(Raspberry Pi 4個)を作成しました。しかし、Linpackを使用して4つのユニットすべてをベンチマークしようとすると問題が発生します。 ノードの1つは、wlan0インターフェイスを使用してインターネットとローカルWi-Fiネットワークに接続し、eth0を使用してクラスタの内部LANに接続するrpislave1というヘッドノードです。 他の3つのノードはrpislave2、rpislave3、およびrpislave4です。それぞれはヘッドノードであるrpislave1に接続されており、rpislave1を介してイン...

Admin

タスクスケジューラを使用せずに共有ファイルシステムを持つ複数のLinuxサーバーをどのように設定しますか?
cluster

タスクスケジューラを使用せずに共有ファイルシステムを持つ複数のLinuxサーバーをどのように設定しますか?

私は主にディープラーニング作業のために研究室で複数のGPUサーバーを管理しています。私たちは、これらのマシンが同じファイルシステムを共有しているため、マシン間の移行がより簡単になります。 現在、NFSを使用して/homeすべてのコンピュータでフォルダを共有していますが、すべてのコンピュータにシステムアップデート(デフォルトのフォルダ以外のNVIDIAドライバなど)をインストールすることは、各コンピュータで行う必要があるため面倒です。 フルファイルシステム(root)を共有する方法があるかどうか疑問に思います/。私の関心事は、これらのコンピュータが異なる構成(...

Admin

ディスクレスノードクラスタのファイルシステム構造を設計する正しい方法
cluster

ディスクレスノードクラスタのファイルシステム構造を設計する正しい方法

私はLinuxクラスタリングの基本を学ぶことを試みて、非常に単純なクラスタの設計を始めました。 ワーカーノード6個(リブレコンピュータラフリード | Cortex-A53 @ 1.2 GHz |1GB RAM) マスターノード1個 (ラズベリーパイ4モデルB | Cortex-A72 @ 1.5GHz |2GBメモリ) 16ポートギガビットイーサネットスイッチ 500GBソリッドステートドライブネットワーク上のNFS経由で共有 私はちょうどk3sを実行する予定ですが、動作するSBCボードのディスクレス特性のため、「ルートファイルシステム構造」がどんなも...

Admin

LANを失うことなくインターネット接続を削除する
cluster

LANを失うことなくインターネット接続を削除する

小さなクラスタ(Debian 10を実行しているすべてのノード)があり、すべてのスレーブノードからインターネット接続を削除する必要があります。インターネットケーブル接続はファイアウォールとして機能するコンピュータに接続され、そのコンピュータはスイッチを提供します。すべてのクラスタコンピュータがスイッチに接続されます。ファイアウォールコンピュータは、すべての接続をスイッチのマスターノードにリダイレクトします。ノードとクラスタ間の接続はSSHを介して行われます。 インターネット プロバイダはポリシーを変更し、現在、すべてのコンピュータを同じポートに接続できなくな...

Admin

クラスタからストレージサーバーへの非常に大きなデータセットの転送
cluster

クラスタからストレージサーバーへの非常に大きなデータセットの転送

非常に大きなデータセット(ペタバイト単位で測定)をHPCクラスタからストレージサーバーに移動する必要がありました。我々は、デバイス間の大容量通信リンクを持っています。しかし、ボトルネックは、個々のファイルを並列化できる高速転送ツールのようです(各個々のファイルのサイズはテラバイトなので)。 この点で、私は管理者権限を必要とせず、scpやrsyncよりもはるかに高速なツールを探しています。管理者権限なしでローカルにインストールできるツールがあれば、それも役に立ちます。私はこのリンクを見つけました(2台のコンピュータ間で大量のデータを転送する最速の方法は何ですか...

Admin

同じGPUで複数のSLURMジョブを実行する
cluster

同じGPUで複数のSLURMジョブを実行する

したがって、私はシステム管理者ではありませんが、大量の作業(約5000件)を開始するには、既存のSLURMインストールを使用する必要があります。 クラスタは10個のGPU(各GPUのメモリは8GB)と56個のCPUを持つ1つのノードで構成されています。 sbatch <file>各タスクは、私が実行した後にsview何が起こっているのかを判断するために使用するバッチスクリプトです。 これらの作業はGPUで実行する必要がありますが、GPUのメモリ要件がかなり低いため(約2GB)、単一のGPUに3つを入れることができると思いました。 私は同じGPUで...

Admin

VGがクラスタ化されているかどうかを確認するには?
cluster

VGがクラスタ化されているかどうかを確認するには?

GFS2ファイルシステムがインストールされているCentOS 7 Pacemakerクラスタがあります。vgchange -cy vg_nameインストール中に実行されていないと確信してください。実行しようとしましたが、vgchange --test -cy vg_nameボリュームグループがすでにクラスタ化されているというメッセージが表示されました。 Linux 6 では、service clvmd statusvg がクラスタリングされたかどうかが表示されます。しかし、Linux 7ではpcs resource show clvmd出力がまったく異なるの...

Admin

Clustersh:ウィンドウがアルファベット順にソートされるのを防ぎます。
cluster

Clustersh:ウィンドウがアルファベット順にソートされるのを防ぎます。

cssh私はDebian 10(パッケージ)を使用していますclusterssh 4.13.2-2。 複数のサーバーに接続する場合: cssh foo bar zz aa csshは4つの端末を開き、アルファベット順に! これにより、次のように画面のウィンドウの順序を指定できます。 aa bar foo zz これは純粋な悪です! ウィンドウを元の順序で維持するにはどうすればよいですか? Perlコードにいくつかのクイック修正がありますか? ...

Admin