私はGeForce 690 GPUと一緒にヘッドレスUbuntuサーバー14.04を実行して興味深いCuda機械学習タスクを実行しようとしています。ドライバがフリーズする問題があるため、デバッグに役立ちます。これは、カードが計算的にうまく機能するために使用される新しい問題です。
問題は、基本的にカードに接続しようとするすべてのプログラムが中断されることです。これは私が自分で書いた非常に単純なプログラムとnvidiaが提供するnvidia-smiバイナリの両方で発生します。 straceを介してそれぞれを実行しましたが、すべて/ dev / nvidiactlデバイスを開こうとするオープンシステムコールにかかっています。
プログラムが中断されると、これ以上信号を受信できなくなります(kill -9は効果がありません)。再起動しないと停止できません。
NVIDIAドライバを強制的にrmmodしようとしましたが、使用中だそうです。 lsof は、実際には /dev/nvidiactl のファイル記述子を保持するプログラムがないことを示しています。
コンピュータに接続されているモニタがなく、グラフィックプログラム(X、gnome、Unityなど)が実行されていません。
システムレベルでこのようなデバッグを開始する最良の方法は何ですか?ドライバーコードが独占だから難しいですね…