私が持っている2つのサーバー(1つはRTX2080Ti、もう1つはRTX3080)のうちの2つのサーバーは、既存のシステムで期待どおりに動作します! Centos 7または8、最新のシステム(Centos 9)を実行している場合、アイドル状態のときにサーバーが停止し続け、ログに「GPUがバスから落ちました」と表示されます。
これが電源の問題ではないと100%確信していますが、システムがアイドル状態でカーネルのアイドルドライバが作業を開始すると、マザーボードがカードに期待どおりに動作するのに十分な電力を供給できないようです。 (私は即興で演奏しています!)..
同じ古いOSで最新のカーネル(以前はうまく機能しました)をコンパイルして実行すると、最新のカーネルに問題があります。したがって、最近カーネルにバグがあると疑われます。
さて、私は最新のOS(Centos 9)で以前のカーネル(以前はうまく機能していたのと同じバージョン)を実行することにしましたが、この問題が発生していることに驚きました。
だから混乱している! OSの問題の場合、カーネルを更新するときに動作していた古いOSが機能しないのはなぜですか? !これがカーネルの問題なら、うまく機能していた古いカーネルが最新のOSで失敗するのはなぜですか?
今問題は…システムがアイドル状態のときのカーネルとオペレーティングシステムの間の依存関係またはライブラリは何ですか? !私が理解する限り、これはカーネルの仕事です!
言及すべき重要な点は、CPUアイドルドライバを無効にし、ACPIドライバを使用すると(起動時にアイドル=nomwaitカーネルオプションを介して)問題を解決することができますが、システムが比較的大きくなり、ファン速度が比較的高いことです!