背景

背景

背景

私は長年にわたりXeonワークステーションに停止の問題を抱えています。さまざまなタスクで非常に高速ですが、時には明白な理由なくアプリやデスクトップでさえ停止することがあります。

昨年は状況が悪すぎてワークステーション全体を新しいハードウェアに置き換えましたが、新しいコンピュータでも問題は解決しません。どちらも同じRHEL6ブートイメージからインストールされました。どちらもまともなCPU、十分なメモリ、会社のネットワークgig-eスイッチへの直接接続機能を備えています。元のマシンにはSSDがありましたが、新しいマシンは回転する錆の塊です。もともとマシンではしばらくRHEL7に切り替えもしてみましたが、性能はまったく同じで、使い勝手の面でGnome 3が一歩遅れたようでRHEL6を再インストールしました。

私のワークステーションへのrootアクセス権はありませんが、次の方法で他のソフトウェアを使用できます。基準寸法

問題がどのように現れるか

問題は、Eclipse開発環境を実行するときに最も深刻で再現するのが簡単です。通常、ファイルを保存するか、eGitを介して変更をコミットすると、Eclipse全体が10〜30秒間応答を停止します。これが発生した場合は、タイトルバーをダブルクリックしてウィンドウを復元して最大化し、操作を続行する前にウィンドウが再描画されるまで待ちます。

私は相乗効果を使ってLinuxワークステーションのキーボードとマウスをWindowsノートブックと共有します。場合によっては、デスクトップ全体がフリーズし、マウスポインタがワークステーションに戻り、ワークステーションが溶けるまでラップトップを制御できなくなります。

また、Firefoxに停止の問題があるという事実も発見しました。 30秒ごとに10秒間停止して失望し、停止中はスクロールしたりタブを切り替えることができませんでした。今は時々発生します(この記事を書いている間は一度)。

他のものほど一般的ではありませんが、bashコマンドラインでも問題を発見しました。コマンドを実行せずにEnterキーを押すと、後続のプロンプトが表示されるまで10〜30秒かかります。

今まで試したこと

アプリケーションが停止している間にCPUとIOの使用量を監視しましたが、使用量が最小限のようです。明らかに、デスクトップ全体が停止すると、topシステムモニタやコマンドラインなどの監視ツールも停止し、その時点で何が起こっているのかを確認するのは困難です。

Eclipseアプリケーションをローカルディスクに移動し、~/.eclipseローカルディスクのディレクトリにシンボリックリンクを試みましたが、大きな違いはありませんでした。この問題は、Eclipseワークスペースがローカルドライブにあるか共有のいずれかに関係なく発生しますnfs

ネットワークファイルへのアクセスを最小限に抑えるために、Eclipseはファイルアクセスを追跡しようとしましたが、特定の問題は表示されませんでした。

ただし、子プロセスを含めるように調整すると、straceプロセスが停止されるたびに、次の形式で多くのメッセージが表示されます。

[pid 13513] --- SIGSEGV {si_signo=SIGSEGV, si_code=SEGV_ACCERR, si_addr=0x7fe7db165000} ---

しかし、これらのアクセスエラーをさらに詳しく調べる方法はよくわかりません。

最初から新しいFirefoxプロファイルを作成して試しましたが、あまり違いはありませんでした。ネットワーク上の他のコンピュータで作業している間はFirefoxプロファイルにアクセスできる必要があるため、Firefoxプロファイルをローカルディスクに移動することはできません。他のコンピュータにはパーソナルワークステーションで見られるような問題はないようですが、一度に数時間以上使用することはほとんどありません。

ファイルシステム(ローカルとネットワーク)でベンチマークを実行してみましたが、私が見つけたツールは転送平均化に焦点を当てているようです。そうだった。はい早く。

以下の質問に対する回答を確認してください。コンピュータがハングする原因が何であるかをどうやって知ることができますか?ローカルファイルシステムがext4(LVM上)、ネットワークファイルシステムがallであり、マイコンピュータがnfsLUKSを使用していないことを確認できます。

見ている停止の原因を特定するためにコンピュータを停止できますか?この問題は、多くのカーネルバージョン、Redhatバージョン、およびNvidia Quadroドライバで持続することを思い出させます。

私の疑い

私はいつも私の問題がネットワークに関連していると疑っていました。しかし、どのように調査するのが最善かわかりません。

何らかの理由でネットワーク接続が失われると、ネットワークが再接続されるまでシステム全体が停止することがわかります。以前はこれが起こったことを見たことはありませんが、私たちのシステムは、ホームディレクトリとアプリケーションサーバーの共有が常に利用可能で応答性があると仮定しているようです。

私の質問

なぜコンピュータがこのように動作するのかを調べるには、何を探すべきですか?

これらのパフォーマンスの問題を追跡するためにどのRHELツールを使用できますか?ルートアクセスなしでこれらのツールを使用できますか?

関連情報