Linux+CentOS服务器NVIDIA显卡驱动更新(NVIDIA Driver)、CUDA、cuDNN更新

2024-07-18 服务器 0

目录
一、服务器显卡驱动更新
1、查看原有的显卡驱动和CUDA信息（做备份记录）
2、删除原本服务器上的nvidia驱动程序
3、重新安装nvidia驱动程序
二、CUDA更新
1、官网查找cuda对应的版本：CUDA Toolkit Archive | NVIDIA Developer
2、复制红框两行代码到服务器，进行CUDA下载
3、配置环境变量
三、安装cudnn
1、官网下载cudnn
2、下载tar.xz包后放在服务器目录下，使用tar命令对tar.xz进行解压：
3、将解压后的头文件和库复制到cuda目录中：
4、cuDNN安装完成，查看安装的版本：

一、服务器显卡驱动更新

1、查看原有的显卡驱动和CUDA信息（做备份记录）

nvidia-smi -a

备注：

nvidia-smi：GPU驱动版本，driverAPI（支持的最高cuda版本）

watch -n 1 nvidia-smi：动态监控显卡状态

nvcc -V：cuda版本，timeAPI（运行时API）

2、删除原本服务器上的nvidia驱动程序

① 清除所有nvidia相关文件和依赖

yum remove nvidia-*

② 进一步清除（把nvidia-driver的相关组件都清理掉）

rpm -qa|grep -i nvid|sortyum remove kmod-nvidia-*

③ 清除cuda

yum remove "*nvidia*"yum remove "*cublas*" "cuda*"

④ 卸除驱动重启

sudo reboot

⑤ 输入nvidai-smi，报错的话就是卸载成功了。

3、重新安装nvidia驱动程序

① 在nvidia官网找到显卡对应的驱动程序，下载后复制到服务器上。可以自定义放在这个目录：/root/Downloads/（自定义即可）

nvidia官网驱动下载：官方驱动 | NVIDIA

② cd到这个驱动文件的目录，然后运行这个驱动文件

cd /root/Downloads/sh NVIDIA-Linux-x86_64-470.57.02.run

备注：在安装过程中可能会显示一个问题

选择NO继续。如果出现警告可以不用理会，直接继续，直到安装完成。

③ 安装完成后，输入nvidai-smi，显示如下，则安装成功。

二、CUDA更新

1、官网查找cuda对应的版本：CUDA Toolkit Archive | NVIDIA Developer

2、复制红框两行代码到服务器，进行CUDA下载

安装过程中，会问你是否需要下载驱动（Drive），正常情况下请不要下载，即选择否。即取消第一个Drive的[X]，改为[ ]（使用回车键取消选择），然后选“Install”开始安装下载。（默认安装目录是/usr/local/）

安装后会出现：

3、配置环境变量

① 打开编辑~/.bashrc文件：vim ~/.bashrc

② 在文件末尾添加如下两行(应该是有很多种添加方式，这里选用了其中一种)。PS, 要将cuda版本11.7替换成你安装的版本，如cuda-12.2。

export PATH=/usr/local/cuda-11.7/bin${PATH:+:${PATH}}export LD_LIBRARY_PATH=/usr/local/cuda-11.7/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

③ 刷新~/.bashrc配置文件，使得配置生效：source ~/.bashrc

④ 测试、查询nvcc版本检查是否安装成功：nvcc -V

三、安装cudnn

1、官网下载cudnn

下载地址：https://developer.nvidia.com/rdp/cudnn-archive

备注：需要挂梯子，然后登录/注册英伟达的账号，进行邮箱验证。

2、下载tar.xz包后放在服务器目录下，使用tar命令对tar.xz进行解压：

tar -xvf cudnn-linux-x86_64-8.8.1.3_cuda11-archive.tar.xz

3、将解压后的头文件和库复制到cuda目录中：

注意看cuda目录是不是正确,可能是cuda-11.7

cd cudnn-linux-x86_64-8.9.7.29_cuda11-archivesudo cp include/cudnn*    /usr/local/cuda/include sudo cp lib/libcudnn*    /usr/local/cuda/lib64 sudo chmod a+r /usr/local/cuda/include/cudnn*   /usr/local/cuda/lib64/libcudnn*

4、cuDNN安装完成，查看安装的版本：

cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

~ 到这里搞定完啦 ~~~~

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

↓↓↓↓↓ 以下是深度学习跑代码需要重新更新环境的步骤哦 ↓↓↓↓↓

四、为深度学习模型训练配置新环境、新版本的pytorch

1、用anaconda新建一个环境：

conda create -n env_name python=3.9.7

2、激活这个新的环境：

conda activate env_name

3、下载pytorch：

pip install torch==2.0.0+cu117 torchvision==0.15.1+cu117 -f https://download.pytorch.org/whl/torch_stable.html -i https://pypi.tuna.tsinghua.edu.cn/simple

【备注官方pytorch的下载地址】

下载地址：Start Locally | PyTorch

【备注一些anaconda的操作说明】：

查看安装了哪些包：conda list
查看有哪些虚拟环境：conda env list, conda info -e
创建虚拟环境：conda create -n env_name python=3.9.7 （env_name，改成自己的）
激活/切换虚拟环境：activate env_name （env_name，改成自己的）
删除虚拟环境：conda remove -n env_name （env_name，改成自己的）