0
現在の研究の一環として、エコーまたはシミュレートされた垂直スケーリングを介して1
コアを無効化/再活性化するテストが行われています。/sys/devices/system/cpu/cpuN/online
これは、カーネルv4.4.0(Ubuntu 16.04 LTS)を使用する複数のXeon E3システムで完全に実行されます。最近、Ubuntu 16.04でv4.4.0を実行しているデュアルソケットEPYC 7281システムをテストする機会がありました。これらのシステムでコアを無効にすると正常に動作します。ただし、再度有効にすると、lscpuとhtopによってオンラインで表示されますが、システムを再起動するまで再び動作するようにスケジュールされていません。つまり、システムをストレステストしたとき、htopは無効になっていないとマークされていました。以前および再アクティブ化されたコアが使用中です。
つまり、Xeonシステムは最初にコア#0以外のすべてのコアを無効にしてから再度有効にします。その後、コアを無効にする前と同様に、すべてが正常に実行されます。 EPYCシステムでは、無効化されたカーネルは、htopおよびlscpuが再び有効になっても使用可能とマークされた後でも再利用されません。
さらなるテストのためにEPYCシステムにアクセスできなくなりましたが(2週間しか使用していないため、最新のカーネルへのアップグレードは許可されていません)、新しいハードウェアの購入を検討しており、Threadripper / EPYC(Zen in)が何であるかを調べる必要があります。 。一般)通常、カーネルを無効/再アクティブ化すると失敗します。それともこれは単に奇妙な孤立した問題ですか?
私の質問は次のとおりです
コアが正常にオンラインにならないのが以前のバージョン4.4の問題でしょうか?カーネルなので、最新のカーネルにアップグレードするとこの問題は解決しますか?残念ながら、これ以上EPYCマシンにアクセスできないため、これをテストすることはできません(そうしないと、この記事はここにありません:)。しかし、私は私たちの新しいハードウェアに対するフルアクセス権を持っています。したがって、新しいカーネルがこの問題を解決することを嬉しく思います。
カーネルバージョンが原因でない場合は、EPYCがこのように動作するのはなぜですか。この問題を解決するにはどうすればよいですか?
私は答えを見つけようとしましたが、カーネルv4.10以降からZenベースのCPUへのパッチがたくさんあったことを除いて、これまでに決定的なものが見つかりませんでした。
私が探していますこのリンク、Intel CPUでプロセスがどのように機能するかについての詳細を提供し、カーネルの無効化を担当する実際のコードへのリンクも提供します。残念ながら、これはあまり役に立ちません。少なくとも私は私の質問に答えるのに十分理解していません。
これ再起動せずに実行中にコアを垂直方向に拡張する必要があるため、役に立ちません。
また、最新のカーネルで新しい電源管理システムへの参照を見つけましたが、これは私の理解の範囲外です。
あるいは、現在の最新のカーネルを含むThreadripperまたはEPYCシステムを使用している人がカーネルを無効に/再アクティブ化し、それをロードして確認することでクイックテストを実行できる場合は、おそらく問題の原因を突き止めて見つける必要はありません。 、それだけで十分でしょう。正しく使用されていますか?
この問題についての洞察力と助けをいただきありがとうございます!
必要に応じて、ここでより詳細な情報を提供します。この動作を説明するために何が必要かわかりません。そして、このような質問をするのが正しいコミュニケーション方法ですか?または、助けを得るための別の方法をお勧めしますか?
答え1
まあ、子孫のために私は実験を通して答えを見つけました。
私の同僚は、カーネルv4.15を使用して完全にロードされたEPYC 7281システムで31/32コアを無効にして再度有効にして、クイックテストを実行しました。無効になっているすべてのコアが再び正しく利用されているため、以前に遭遇した問題がなくなったようです。
どのバージョンにこの修正が含まれているのか、この結果に影響を与える可能性がある他の変更要因があるのかはわかりませんが、現時点では最新のカーネルを使用すると、人々がZenベースのCPUカーネルでこれを無効に/有効にできると確信しています。します。問題。