リソース集約的な作業に最適なサーバーの決定

Question

分散ジョブ/タスクスケジューラ、クラスタ管理システム、またはクラウド管理を見つける必要があります。これらの多くはすでに存在し、Casは彼の意見でいくつかを指摘しており、Googleはより多くを見つけるでしょう。

一度展開すると、両方の人がより幸せになり、もはや常にお互いのつま先を踏むことを心配する必要はないと確信しています。また、エラーが原因でシステムが壊れず、ジョブが失敗するようにサーバーを修正する必要があります。

独自のリソースを構築する必要があると主張する場合（15年前のことですが、すでにそうしたことを認めています）、広く言えば、タスクはいくつかの異なるタイプのリソースを消費するので、タスクが占めるリソースは何かを検討することをお勧めします。

を使用してメモリ使用量を確認しfree、経由でディスクI / Oを確認し、経由でスペースを確認し、iostat（Linux上）を介してfreeCPU使用率を確認するなどのタスクを実行できます。cat /proc/loadavguptimetopps

しかし、もちろん、現在の数値を確認するには問題があります。make最初にいくつかの簡単なタスクを実行するのに数分かかり、数十億のRAMを必要とする大規模なプロセスを開始することもできます。これが発生する可能性があります：

Aliceはスクリプトを実行して「make」操作を開始します。
スクリプトはserverAをチェックし、空きRAMが多くCPU使用率が低いことを確認した後、serverAで作業を開始します。
しばらくして、Bobはスクリプトを実行してRAMを大量に使用する別のタスクを開始します。
アリスの使命はまだ資源集約的な段階に入っていない。したがって、スクリプトがserverAをチェックするとき、まだ利用可能なRAMがたくさんあります。また、serverAでBobの作業を開始します。
BobのタスクはserverAで利用可能なRAMの大部分を使用します。
アリスの仕事はついにRAM集中的な部分に入りましたが、現在利用可能なRAMはありません。ああ！ ServerAが死亡しました。

はい、上記は1つを書いた経験からのものです（私のものを使った場合はCPU時間でした）。

Answer 1

分散ジョブ/タスクスケジューラ、クラスタ管理システム、またはクラウド管理を見つける必要があります。これらの多くはすでに存在し、Casは彼の意見でいくつかを指摘しており、Googleはより多くを見つけるでしょう。

一度展開すると、両方の人がより幸せになり、もはや常にお互いのつま先を踏むことを心配する必要はないと確信しています。また、エラーが原因でシステムが壊れず、ジョブが失敗するようにサーバーを修正する必要があります。

独自のリソースを構築する必要があると主張する場合（15年前のことですが、すでにそうしたことを認めています）、広く言えば、タスクはいくつかの異なるタイプのリソースを消費するので、タスクが占めるリソースは何かを検討することをお勧めします。

を使用してメモリ使用量を確認しfree、経由でディスクI / Oを確認し、経由でスペースを確認し、iostat（Linux上）を介してfreeCPU使用率を確認するなどのタスクを実行できます。cat /proc/loadavguptimetopps

しかし、もちろん、現在の数値を確認するには問題があります。make最初にいくつかの簡単なタスクを実行するのに数分かかり、数十億のRAMを必要とする大規模なプロセスを開始することもできます。これが発生する可能性があります：

Aliceはスクリプトを実行して「make」操作を開始します。
スクリプトはserverAをチェックし、空きRAMが多くCPU使用率が低いことを確認した後、serverAで作業を開始します。
しばらくして、Bobはスクリプトを実行してRAMを大量に使用する別のタスクを開始します。
アリスの使命はまだ資源集約的な段階に入っていない。したがって、スクリプトがserverAをチェックするとき、まだ利用可能なRAMがたくさんあります。また、serverAでBobの作業を開始します。
BobのタスクはserverAで利用可能なRAMの大部分を使用します。
アリスの仕事はついにRAM集中的な部分に入りましたが、現在利用可能なRAMはありません。ああ！ ServerAが死亡しました。

はい、上記は1つを書いた経験からのものです（私のものを使った場合はCPU時間でした）。

関連情報