Ubuntu 22.04でSlurm cgroupsプラグインのトラブルシューティング

Ubuntu 22.04でSlurm cgroupsプラグインのトラブルシューティング

私は直面しています挑戦的な質問そしてSlurm cgroupsプラグインUbuntu 22.04を実行しているシステムで。我々は比較的初めてSlurmに触れ、複雑なコンピューティングタスクでリソースをよりよく管理するためにSlurmを使い始めました。しかし、特にUbuntu 22.04ノードでcgroupsプラグインに問題が発生しました。

私たちが経験している状況は次のとおりです。

  • 最初はノード(2つはUbuntu 22.04を使用し、1つはUbuntu 18.04を使用)でcgroups V2プラグインを試しましたが、成功しませんでした。

  • Ubuntu 18.04ノードでタスクを実行できますが、22.04ノードではエラーが発生するcgroups V1プラグインに切り替えました。

  • これらのエラーは、ジョブの/sys/fs/cgroup試行を入力した後のノードや状態など、ディレクトリに関連していますidledrain

カーネルパラメータを修正しようとしましたが、成功しませんでした。 Ubuntu 22.04では、これらのcgroupsプラグインエラーを解決する方法についての洞察を探しています。

以下は、エラーが発生し始めたログです。

[2023-10-12T14:50:29.479] [36.batch] error: unable to open '/sys/fs/cgroup/cpuset//tasks' for reading : No such file or directory
[2023-10-12T14:50:29.511] [36.batch] error: unable to mount cpuset cgroup namespace: Device or resource busy
[2023-10-12T14:50:29.511] [36.batch] error: unable to create cpuset cgroup namespace
[2023-10-12T14:50:29.511] [36.batch] error: unable to open '/sys/fs/cgroup/devices//tasks' for reading : No such file or directory
[2023-10-12T14:50:29.512] [36.batch] cgroup/v1: xcgroup_ns_create: cgroup namespace 'devices' is now mounted
[2023-10-12T14:50:29.514] [36.batch] error: common_cgroup_lock error
[2023-10-12T14:50:29.514] [36.batch] error: task_g_pre_setuid: task/cgroup: Unspecified error
[2023-10-12T14:50:29.514] [36.batch] error: Failed to invoke task plugins: one of task_p_pre_setuid functions returned error
[2023-10-12T14:50:29.515] [36.batch] error: called without a previous init. This shouldn't happen!
[2023-10-12T14:50:29.515] [36.batch] error: job_manager: exiting abnormally: Slurmd could not execve job

この環境で推奨される既知の互換性の問題や特定の診断方法はありますか?

助けてくれてありがとう!

関連情報