マルチGPUスーパーコンピュータ

マルチGPUスーパーコンピュータ

Ubuntu Server 14.04を実行するスーパーマイクロサーバーがあり、Quadro 400(ディスプレイ用)、Nvidia GTX 295、およびNvidia K80をインストールしたいが、K80用ドライバをインストールするときにQuadro 400およびNvidia GTX 295はnvidia

nvidiaのWebサイトからGTX 295(Quadro 400と同じように見える)用のドライバをインストールしようとすると、以前にインストールしたドライバをアンインストールする必要があるというメッセージが表示されます(ドライバがK80用でK80用ではないにもかかわらず)。 GTX295)

以前この問題を経験した人はいますか?そして、複数のGPUをインストールして検出する方法を学びます。

また、(以前の検索に基づいて)次の内容で/etc/modprobe.d/にblacklist-nouveau.confというファイルを作成しました。

blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off

nvidia-smiを実行すると(そしてすべてのドライバをインストールしようとした後)、次のメッセージが表示されます。

Failed to initialize NVML: Unknown Error

ありがとう

答え1

これが解決策です

  1. Ubuntu Server 14.04を再インストールしました。
  2. 公式文書の1-2、3番の項目に従いました。
cuda-getting-started-guide-for-linux
  1. nvidia-smiを実行しましたが、K80のみが表示されました。
  2. K80のプラグを抜きました。
  3. gtx295およびQuadro 400用のドライバを手動でインストールしました。
 sudo apt-get install nvidia-340
  1. K80を再接続しました。
  2. システムを再起動してNvidia-smiを実行しました(すべてのグラフィックカードが表示されますが、CUDAコードやNsightを介してアクセスできるものはないようです)。

  3. だからもう一度実行しました(GTXとQuadroドライバは削除されないことを願っています)。

sudo apt-get install cuda-drivers
  1. サーバーを再起動してください

(現在Nvidia-smi)K80だけを見せてくれたのに……また!

  1. ついにインストールしました。
 sudo apt-get install nvidia-cuda-toolkit
  1. サーバーを再起動しました。
  2. はい、うまくいきました。すべてが検出され、すべてのGPUが利用可能でした。

これで、すべてのカードがNvidia-smiに表示されます。グラフィカルなインターフェースも手に入るようですが、インストールしていないので奇妙ですが公平です。それでは、動作していることを確認してみましょう。

関連情報