cuda

Fedora 39でdnf update --refreshを使用してnvidiaドライバを更新しようとすると、エラーがたくさん発生します。
cuda

Fedora 39でdnf update --refreshを使用してnvidiaドライバを更新しようとすると、エラーがたくさん発生します。

約1〜2週間前にカーネルを更新しようとしましたが、誤ってNVIDIAドライバが破損しています。起動するたびに、「NVIDIAカーネルモジュールが破損しています。nouveauに戻っています」というメッセージまたは類似のメッセージが表示されます。調べてみると、いくつかのソースでsudo dnf update --refreshを指示しましたが、そうすると次のような結果が出ました。 Problem 1: package xorg-x11-drv-nvidia-power-3:550.67-1.fc39.x86_64 from rpmfusion-nonfree...

Admin

GPU RTX 3090を一定期間使用してもERRが発生し続けます。
cuda

GPU RTX 3090を一定期間使用してもERRが発生し続けます。

私のコンピュータのGPU関連の問題を解決しようとしてきました。現在、GPUはいくつかのトレーニング作業を非常にうまく実行できます。ただし、入力するとERRに移動しますnvidia-smi。それなら何が起こってもsudo -kill 9 PID。 GPUを再起動しようとすると、他のプロセスがGPUを使用しているため、再起動できないというメッセージが表示されます。これを終了することはできないようです。この問題が引き続き発生して再起動すると、問題は解決したようですが、いくつかのトレーニングの後に問題が再発生します。主な問題は、ほとんどの場合SSHを介して自分のコン...

Admin

Wi-Fiは機能しなくなりました(おそらくCUDAドライバおよび/またはnvidia-smiのインストールのため)
cuda

Wi-Fiは機能しなくなりました(おそらくCUDAドライバおよび/またはnvidia-smiのインストールのため)

Debianシステムにnvidia CUDAドライバをインストールしましたが、nvidia-smiこれまでWi-Fiに問題はありません。私は多くのsudo apt installコマンドを試していくつかの*.debファイルをダウンロードしました。ついにCUDAドライバと実行ファイルが正しく機能するようにしてください。 ただし、コンピュータを再起動した後はWi-Fiを使用できません。これはインストール試行の結果であると仮定する必要があります。 現在提供できる唯一のヒントは、カーネルログで次のエントリが見つかったことです。 sudo dmesg | grep w...

Admin

Cuda(arch linux)用のEGPUを含むマルチNVIDIA RTX GPU
cuda

Cuda(arch linux)用のEGPUを含むマルチNVIDIA RTX GPU

私アーチLinux、ラップトップには2つのGPUがあります(Thinkpad P14s第4世代)+ Cool Master EG200 GPUケースを使用してThunderbolt 4を介して接続された新しいRTX 3090: ❯ lspci -k | grep -A 2 -E "(VGA|3D)" 00:02.0 VGA compatible controller: Intel Corporation Raptor Lake-P [Iris Xe Graphics] (rev 04) Subsystem: Lenovo Raptor Lak...

Admin

スクリプトは実行されませんが、GPUメモリはまだ割り当てられています。
cuda

スクリプトは実行されませんが、GPUメモリはまだ割り当てられています。

私はローカルコンピュータからリモートLinuxサーバーにアクセスしています。リモートサーバーではスクリプトは実行されていませんが、GPUメモリはまだ割り当てられています。 PS:一部の競合が原因で発生する可能性があります。 パフォーマンスnvidia-smi: +-----------------------------------------------------------------------------+ | NVIDIA-SMI 510.47.03 Driver Version: 510.47.03 CUDA Version: 11...

Admin

CUDAを使用するプロセスは中断され、他のすべてのプロセスも中断されます。どうすればいいですか?
cuda

CUDAを使用するプロセスは中断され、他のすべてのプロセスも中断されます。どうすればいいですか?

私はLinuxシステム(Devuan Daedalus、カーネルバージョン6.1.27)で実行するためにCUDA CUDA 12.1を使用していくつかのプログラムを書いています。 何らかの理由で(少し疑わしいですが、これは私の間違いかもしれません)プロセスがある時点で中断されました。 SIGINT、SIGTERM、SIGKILLを送信しても効果はありません。このプロセスの詳細は重要ではありませんが、ファイルI / Oを実行せずにネットワークを使用せず、他の周辺機器を使用しません。 - CUDA API(具体的に実行グラフ)のみを使用し、いくつかの計算を実行し...

Admin

Linuxでcuda用torchをインストールするにはどうすればよいですか?
cuda

Linuxでcuda用torchをインストールするにはどうすればよいですか?

cuda用のpytorchをインストールしたいのですが、パッケージの競合が発生します。この問題をどのように解決しますか? $ uname -r 3.10.0-1160.71.1.el7.x86_64 $ python -c "import torch; print(torch.version.cuda)" None $ nvidia-smi Tue May 9 10:56:44 2023 +---------------------------------------------------------------------------...

Admin

CUDAを使用するプログラムは、いずれかのエラーが発生した場合に停止して終了できません。
cuda

CUDAを使用するプログラムは、いずれかのエラーが発生した場合に停止して終了できません。

何かデバッグをしようとしています。プログラム私はCUDA(特にCUDAグラフ)を使います。プログラムは(時々)エラーが発生した後に比較的正常に終了します。ただし、失敗した後にGPUを使用して別のプログラムを実行しようとすると、起動時にすぐに停止し、ルートkill -KILLでも終了できません。 私のdmesg出力(Linuxシステム)を見ると、次の行が表示されます。 [ 155.786155] nvidia_uvm: module uses symbols nvUvmInterfaceDisableAccessCntr from proprietary m...

Admin

抽出されたローカル実行ファイルからCUDAをインストールする方法は?
cuda

抽出されたローカル実行ファイルからCUDAをインストールする方法は?

最新のCUDAバージョン(例:12.0)の実行可能ファイルをダウンロードして実行可能にし、次のように実行しました。 ./cuda_12.0.1_525.85.12_linux.run --extract=/tmp/cuda-install 元のインストーラがなく、抽出されたファイルだけがあるとします。 抽出されたターゲットチップにインストーラは実際には表示されません。どうすればいいですか?以前のバージョンでは、解凍後にインストールできたことを覚えていました。 ...

Admin

Nvidia GPUドライバはRPMでコンパイルできません。
cuda

Nvidia GPUドライバはRPMでコンパイルできません。

私は最近OpenSuSE 15.3から15.4にアップデートしましたが、これには新しいドライバ(バージョン490+)を使用できるGPUアップデートが含まれています。このアップグレード後、RPMの基本インストールによりカーネルモジュールは更新されません。 GUIを再起動するためにインストーラを使用しましたが、.runこれはドライバを手動で更新する必要があり、RPMベースのCUDAのインストール管理に大きな損害を与えました。 だから、再び動作させる方法を知りたいです。 最初のステップは直接配信を試みることでしたrpm -i --force ./nvidia-gf...

Admin

X86 Linux PCのGPUDirect RDMA、ドライバのビルドの問題
cuda

X86 Linux PCのGPUDirect RDMA、ドライバのビルドの問題

以下のリンクに記載されているようにGPUDirect RDMAを実行しようとしています。私はQuadro M4000 GPUとCUDA 12.0ツールバーを含むX86 Linux PCを使用しています。ドライバの構築とCUDAプログラミングの実行中に、次のエラーが発生します。 GPUDirect_RDMA カーネルモジュールを構築するためにコマンドを実行すると、./build-for-pc-native.sh次のエラーが発生します。 Building modules, stage 2. ** MODPOST 1 modules** **FATAL: pars...

Admin

NVIDIA GPUへのユーザーアクセスを制限しますか?
cuda

NVIDIA GPUへのユーザーアクセスを制限しますか?

Tesla Nvidiaカードを搭載したサーバーでは、GPUへのユーザーアクセスを制限することにしました。私たちのサーバーには2つのGPUがあります。 # ls -las /dev/nvidia* 0 crw-rw-rw-. 1 root root 195, 0 Dec 2 22:02 /dev/nvidia0 0 crw-rw-rw-. 1 root root 195, 1 Dec 2 22:02 /dev/nvidia1 この解決策を見つけましたGPUのユーザー制限の定義 ローカルグループ gpu_cuda を作成します。 sudo gro...

Admin

アップグレード後に起動が停止する
cuda

アップグレード後に起動が停止する

私のGPUはNvidia - GeForce RTX 3090 Ti、オペレーティングシステムはUbuntu18.04。私のコードが実行されていないので、Python、pytorch、cuda、cudnnのバージョンを確認しました。 Python:3.6 トーチ。バージョン: 1.4.0 torch.version.cuda:10.1(nvidia-smiはCUDAバージョン11.3を示しています) クーデルン: 7.6.3 3090 Tiと互換性がありません。正常にアップグレードしました。Pythonを3.9にとPytorchを1.12.1+cu102...

Admin

nvidia-cuda-toolkitと一致するバージョンをインストールするには?
cuda

nvidia-cuda-toolkitと一致するバージョンをインストールするには?

私のシステム(Ubuntu 22)にNVIDIAドライバを次のようにインストールしました。 インストーラスクリプトをダウンロードします。https://us.download.nvidia.com/XFree86/Linux-x86_64/515.65.01/NVIDIA-Linux-x86_64-515.65.01.run 非グラフィックモードでシステムを再起動します。 sudo systemctl set-default multi-user.target reboot 0 インストールスクリプトを実行します。 グラフィックモードで再起動: sud...

Admin