私は多くのbashプロセスを持っています。各bashスクリプトは、標準出力が別のログファイルにリダイレクトされる実行可能ファイルを呼び出します。実行の約5%は次のように終わります。 sh: [ログ名]: リソースを一時的に使用できません。 並列に実行されるジョブの量を減らそうとしましたが、一部のbashスクリプトではまだエラーが発生します。
追加情報:
- ESXi を使用して仮想マシンで実行される Ubuntu 14.04 LTS
- gparted と LVM が割り当てられた新しいパーティション (全パーティションで構成される新しい論理ボリューム) で発生します。
- nfs-kernel-serverを使用したLVのエクスポート
- LVはSambaを使用してWindowsと共有することもできます。
- LVはext4を使用してフォーマットされます。
- 私はこのコンピュータの管理者権限を持っています
詳細情報
- Sun-Grid-Engineを使用すると、すべてがクラスタで実行されます。
- m1、m2、m3、m4の4つの仮想マシンがあります。
- m1 は sge master、sge exec、ldap サーバーを実行します。
- m2、m3、m4 sge exec 実行
- m3 は nfs-kernel-server を実行してエクスポートします。家ローカルディスクm1、m2、m4のパーティションを使用して論理ボリューム(LVMを使用)にあるフォルダ
- m3 には次のソフトリンクがあります。家フォルダ
- m1、m2、m4の設置家fstab経由でフォルダにアクセスすると、すべてのコンピュータが同じフォルダを指します。家フォルダ
- m3、m2、m4 は LDAP クライアントを実行し、m1 に接続します。
- すべてのジョブは、m1(送信ホストとして構成)を介してクラスターに送信されます。
- ジョブはm3(エクスポートディスク)でのみ失敗します。しかし、m3のほとんどの作業は過去に行われました。失敗はランダムですが、m3 でのみ一貫しています。
- m3も共有家Samba経由でWindowsクライアントに
どんな助けにも感謝しています:)(デバッグ方法、関連ログ、システムから追加情報を取得する方法など...)
よろしくお願いします!
答え1
助けてくれた皆さんに感謝します!
m3の論理ボリュームへのソフトリンクを使用する代わりに、nfsを使用してm3の論理ボリュームをマウントすることによって(nfsクライアントである残りのシステムm1 / m2 / m4とまったく同じ方法で)問題が解決されました。 /etc/fstab: に次の行を追加し<nfs server>:/ /mnt nfs auto 0 0
ますsudo mount -a
。
ヒントは、m3(nfsサーバー)に継続的なエラーがあり、失敗したジョブを自動的に再送信することも問題を解決したという事実です。 m1/m2/m4 (nfs クライアント) でエラーが発生したことがありません。 m3はnfsサーバーであり、論理ボリュームへの簡単なソフトリンクがあり、すべてのクライアントがnfsを使用してこの論理ボリュームに接続することを忘れないでください。
心の中でnfsがこれらの問題からクライアントを保護できると感じますが、論理ボリュームのファイルシステムが失敗してはいけないと思います。失敗しても実際の問題が発生します。問題の根本原因。ところで、これはまだ事実かもしれません。
この問題と解決策についての洞察力がある場合は、書き留めてください。問題があればカバーしたくありません。