如何从Github拿到代码在云服务器跑起来--算力云从零搭建和配置GPU模型环境

开源 0

写在前面:在服务器的Linux系统中复制使用Ctrl+shift+C,粘贴使用Ctrl+shift+V

1.首先拿到一份代码先研究他的readme.md也就是说明文档(至关重要),根据说明文档的详细程度可以间接判断代码能否跑起来,或者代码是否靠谱,不然花很多时间研究才发现代码没有可行性。以下我的代码是环境的说明:

 结合我的论文里面说的环境是:由PyTorch实现,并在NVIDIA GeForce RTX 2080 Ti上执行。

2.打开算力云网址注册登录

3.租用实例,先根据我们需要的GPU型号,需要的配置环境,其次选地区(北京这种地区容易没有可用实例就得等待),价格。

 4.秉承版本至少高于我的要求的原则,做出以下选择:

5.划重点:配置环境可无卡模式开机!(创建以后自动开机,先关机再无卡模式开机)

6.网页端打开配置环境,下一篇帖子我会讲如何与VScode,PyCharm互动。

7.进来以后发现只有原始镜像和一些文件夹:

8.关于数据和文件存储说在前面

文件存储为网络共享存储,可挂载至同一地区的不同实例中。相比本地数据盘,有优有劣:

优势:实例间共享,可以多点读写,不受实例释放的影响;此外存储后端有多冗余副本,数据可靠性非常高(本地数据盘无冗余备份,有一定概率出现磁盘故障影响数据)

劣势:IO性能一般

考虑到以上优劣,推荐使用姿势:将重要数据或代码存放于文件存储中,所有实例共享,便利的同时数据可靠性也有保障;在训练时,需要高IO性能的数据(如训练数据),先拷贝到实例本地数据盘,从本地盘读数据获得更好的IO性能。如此兼顾便利、安全和性能。

 数据量比较大的传输可参考这里使用网盘传输文件存储(在这里我想说得根据帮助文档研究一下数据文件得存储,到时候克隆项目用得着),先在对应的区初始化文件存储,以后在相应地区的区克隆项目才不用重新上传文件:

在配置环境之前我们可用通过文件上传我们的代码和数据集(同步进行节约时间),上传成功后使用命令解压到本地unzip ***.zip

9.打开终端输入conda info -e查看现有的环境:

创建新环境myenv(如果你租用该实例只跑一个代码就在base下也可用,但是个人习惯创建多个小格子环境,互不干扰):conda create --name myenv python=3.7.4,过程中弹出的是否下载输入y

输入conda init重启环境,并关闭shell终端并重新打开

创建环境后,激活它以开始使用:conda activate myenv

运行以下命令来安装所需的软件包:pip install torchvision==0.13.1(pip install torchvision若不指定版本则安装最新版),使用命令查看安装是否成功:python -c "import torchviosion;print('torchvision version:',torchvision._version_)",如图所示发现没有成功:

仔细看刚才的图才发现torch==1.12.1在最后被killed,原因是虚拟机分配的内存不足以安装torch。

通过降低内存安装,在安装命令后面加上--no-cache-dir,输入pip install torch==1.12.1 torchvision==0.13.1 --no-cache-dir

输入pip list查看通过pip命令安装成功的包,安装成功!

也许您对下面的内容还感兴趣: