これは必ずしもLinuxの問題ではありませんが、とにかくここに尋ねます。私が使用するワークステーションは、主にディープラーニングとマシンラーニングモデルをトレーニングするために使用されます。 CPUとGPUの両方でトレーニングコードを実行します。
CPU: AMD Ryzen 9 5950X 16コアプロセッサ
グラフィックカード: NVIDIA GeForce RTX 3090
オペレーティングシステム:Ubuntu 22.04 LTS
私が使用しているライブラリ(PyTorch、XGBoost、LightGBMなど)は、データをロードするために多くのスワップメモリを使用します。大容量データセットを処理すると、スワップメモリがゆっくりと蓄積され、制限(2 GB)を超えます。これが発生すると、すべてのコアがクレイジーになり、CPUが過熱します。ワークステーションは数秒後に自動的に終了します。
私はデータサイエンティストですが、ハードウェアにはうまくいきません。私のワークステーションが終了し続ける理由を見つけるのに数週間かかりました。これ以上作業を完了できないため、これが発生しないようにする方法を見つける必要があります。どんな提案がありますか?
もう少し詳しく申し上げると、3〜4ヶ月前にはこのようなことは起こりませんでした。最近始めました。
編集する:nvidia-smiとセンサー出力を追加して、2つのモデル(UNetとYOLOv6)を同時にトレーニングします。
NVIDIA-SMI
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 510.73.05 Driver Version: 510.73.05 CUDA Version: 11.6 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 NVIDIA GeForce ... Off | 00000000:0A:00.0 Off | N/A |
|100% 79C P2 338W / 350W | 14171MiB / 24576MiB | 100% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
| 0 N/A N/A 1361 G /usr/lib/xorg/Xorg 56MiB |
| 0 N/A N/A 1568 G /usr/bin/gnome-shell 10MiB |
| 0 N/A N/A 27955 C python 2743MiB |
| 0 N/A N/A 31692 C python 11355MiB |
+-----------------------------------------------------------------------------+
検出器
nvme-pci-0300
Adapter: PCI adapter
Composite: +74.8°C (low = -273.1°C, high = +84.8°C)
(crit = +84.8°C)
Sensor 1: +74.8°C (low = -273.1°C, high = +65261.8°C)
Sensor 2: +74.8°C (low = -273.1°C, high = +65261.8°C)
iwlwifi_1-virtual-0
Adapter: Virtual device
temp1: +57.0°C
k10temp-pci-00c3
Adapter: PCI adapter
Tctl: +87.8°C
Tccd1: +89.2°C
Tccd2: +79.5°C
答え1
まず、PSUが十分に強力であることを確認してください。すぐにシャットダウンした場合、PSUに問題があることを示すことができます。交換することもできます。 RTX 3090の最高出力は500Wです。これは、PSUとCPUの定格が少なくとも850W以上でなければならないことを意味します。
あなたの一時的な従業員について話す。
CPUが定格に近づいて動作しています。最高、これは90℃です。これは、ケースファンを取り付けてケース冷却を改善する方が良いことを意味します。たとえば、120mm(140mmが良く、より静かでより強力です)、おそらくCPUに優れたクーラーを取り付けてサーマルグリースを交換します。 i最初の選択はArctic MX-4です(MX-5は理論的には優れたパフォーマンスを提供できますが、適用するのははるかに難しいです)。
GPUは確実にCPU温度を上げるので、適切なケース冷却装置を取り付けるだけで十分です。
EFI BIOSをアップデートすることを忘れないでください。
ソフトウェア専用のソリューションを使用することもできます。 BIOSに入って
- CPU PPT(最大ワット数)を下げてください。
- または、最高温度を85℃に設定してください。
どちらもマルチスレッドのパフォーマンス低下を引き起こしますが、その影響は大きくありません。ここでより多くの助けを得ることができます:https://www.reddit.com/r/Amd/
答え2
議論のために、CPUはい過熱、すなわち落ち着いて問題は一つではないメモリ管理質問。スワップがいっぱいで、システムがスワップとRAMの間でより多くのデータを移動する必要がある場合、システムストレージは追加のI / Oを実行する必要があるため、ストレージハードウェアが熱管理ハードウェアを圧倒することを前提としています。システム監視温度代わりにシステム負荷これらの計算負荷の下で、シャットダウンは計算最高値ではなく温度最高値に関連付けられます。空気をケースに引き込んだり、ケースから押し出したりするのではなく、システムファンが連携して空気の流れを維持していることを確認してください。ラジエーターが正しく取り付けられていることを確認してください。
答え3
私は自分の質問に答え、この問題をどのように解決したかをお知らせします。これは、他の人が結論を出す前に同様のコンテンツを確認するのに役立ちます。
はい、冷却の問題です。マザーボードファンコネクタが緩んでいることがわかりました。ファンは機能していますが、CPUが過熱してもこの情報はファンには渡されません。コネクタを再接続すると、温度が正常に戻りました。