写在前面:在服务器的Linux系统中复制使用Ctrl+shift+C,粘贴使用Ctrl+shift+V
1.首先拿到一份代码先研究他的readme.md也就是说明文档(至关重要),根据说明文档的详细程度可以间接判断代码能否跑起来,或者代码是否靠谱,不然花很多时间研究才发现代码没有可行性。以下我的代码是环境的说明:
结合我的论文里面说的环境是:由PyTorch实现,并在NVIDIA GeForce RTX 2080 Ti上执行。
2.打开算力云网址注册登录
3.租用实例,先根据我们需要的GPU型号,需要的配置环境,其次选地区(北京这种地区容易没有可用实例就得等待),价格。
4.秉承版本至少高于我的要求的原则,做出以下选择:
5.划重点:配置环境可无卡模式开机!(创建以后自动开机,先关机再无卡模式开机)
6.网页端打开配置环境,下一篇帖子我会讲如何与VScode,PyCharm互动。
7.进来以后发现只有原始镜像和一些文件夹:
8.关于数据和文件存储说在前面
文件存储为网络共享存储,可挂载至同一地区的不同实例中。相比本地数据盘,有优有劣:
优势:实例间共享,可以多点读写,不受实例释放的影响;此外存储后端有多冗余副本,数据可靠性非常高(本地数据盘无冗余备份,有一定概率出现磁盘故障影响数据)
劣势:IO性能一般
考虑到以上优劣,推荐使用姿势:将重要数据或代码存放于文件存储中,所有实例共享,便利的同时数据可靠性也有保障;在训练时,需要高IO性能的数据(如训练数据),先拷贝到实例本地数据盘,从本地盘读数据获得更好的IO性能。如此兼顾便利、安全和性能。
数据量比较大的传输可参考这里使用网盘传输文件存储(在这里我想说得根据帮助文档研究一下数据文件得存储,到时候克隆项目用得着),先在对应的区初始化文件存储,以后在相应地区的区克隆项目才不用重新上传文件:
在配置环境之前我们可用通过文件上传我们的代码和数据集(同步进行节约时间),上传成功后使用命令解压到本地unzip ***.zip
9.打开终端输入conda info -e查看现有的环境:
创建新环境myenv(如果你租用该实例只跑一个代码就在base下也可用,但是个人习惯创建多个小格子环境,互不干扰):conda create --name myenv python=3.7.4,过程中弹出的是否下载输入y
输入conda init重启环境,并关闭shell终端并重新打开
创建环境后,激活它以开始使用:conda activate myenv
运行以下命令来安装所需的软件包:pip install torchvision==0.13.1(pip install torchvision若不指定版本则安装最新版),使用命令查看安装是否成功:python -c "import torchviosion;print('torchvision version:',torchvision._version_)",如图所示发现没有成功:
仔细看刚才的图才发现torch==1.12.1在最后被killed,原因是虚拟机分配的内存不足以安装torch。
通过降低内存安装,在安装命令后面加上--no-cache-dir,输入pip install torch==1.12.1 torchvision==0.13.1 --no-cache-dir
输入pip list查看通过pip命令安装成功的包,安装成功!