NVIDIA显卡BUG解决 Unable to determine the device handle for GPU 0000:02:00.0: Unknown Error

服务器 0

报错

实验室去年到今年断了几次电,然后服务器上的2080Ti一直就感觉有点小毛病。属于是被折磨了几个月了。
然后前两周断电后,显卡就基本上完全用不了了,经常服务器开机都会失败。并且就算服务器开机成功过后,没有几分钟显卡就会自己关掉

刚刚开机一切都很正常
但是没过几分钟显卡就会突然用不了了:

nvidia-smiUnable to determine the device handle for GPU 0000:02:00.0: Unknown Error

然后查看是不是有显卡

lspci| grep -i nvidia02:00.0 VGA compatible controller: NVIDIA Corporation TU102 [GeForce RTX 2080 Ti] (rev ff)

很奇怪啊,显卡是在的,但是rev ff就是显卡关闭了。
重启多次过后一直都是这样。

可能的原因

在网上疯狂找,觉得可能存在以下问题

  • 电源问题
  • 也可能是非持久模式导致的频繁初始化,利用命令sudo nvidia-smi -pm 1即可解决。注意这条命令重启后会失效,所以最好写进/etc/rc.local里面,以自动执行。
  • 驱动问题
  • GPU过热,风扇,机箱散热问题
  • 还有一个,如链接。但是我看不懂是怎么回事。

我的问题

我是服务器的电源线在前几次的断电中出现了问题,所以会出现开机的问题,并且显卡毕竟是大功率电器,而且好像有保护机制,电源有问题就自己断电了。
最后换了一根电源线就解决问题了。

如何排查问题的

电源问题

这个太麻烦,而且一般不好解决也不好发现,所以先不管

非持久模式导致的频繁初始化

这个方案执行最简单,所以第一个试一下。
然后,使用了sudo nvidia-smi -pm 1没有用,写到/etc/rc.local里面,也没有用。

驱动问题

退diver版本,更新版本,都没有用
更新cuda也没有用。
个人感觉这个报错一般不会是驱动的问题

GPU过热,风扇,机箱散热问题

开机运行就几分钟,感觉也不太像过热的问题。但是还是抬了个风扇到机房对着吹,最后发现确实不是这个问题。

最后解决

最后实在是受不了了,想着把显卡卸下来。然后先是把服务器抬到实验室,给老板表演一下显卡自己掉线,结果等了半天一点问题都没有,非常平稳。
然后灰溜溜地把服务器弄回去,结果插电源的时候,pa地一下电源的位置闪了一下火花。突然才想到电源的问题还没有排查。。。
然后随便换了个根电源线,现在一两天了,都没有出问题。。。

也许您对下面的内容还感兴趣: