最近拿到一台昇腾aarch64服务器,显卡为A100,十分可贵,可是与往常装备环境不同,服务器存在三大难题:
- 由于安全控制,服务器自身不能访问外网;
- 服务器自身为ARM架构(aarch64);
- 没有管理员权限,只拿到非Root用户;
本文将在以上条件的约束下,装置CUDA CUDNN magma-cuda,以便能够更好地运用这款强大的硬件设备。
一、装置CUDA和cudnn
1.1、下载CUDA驱动
1.首要查看体系的cuda驱动,能够看到这儿是12.3版别,所以咱们要下载比其低的CUDA,引荐11.8版别。 然后输出nvcc –verison,假如是command not found阐明没有CUDA驱需求装置,假如输出了一大堆类型信息且版别低于上图的CUDA 驱动版别,阐明有CUDA且版别正确,就不要再装置了,跳到#二步骤。
2.进入CUDA官网,依据体系版别挑选对应的runfile,注意由于是非root用户,不要用sudo的rpm装置,只能挑选下载runfile用sh装置,由于其他版别需求管理员权限才行,(假如不知道机器是什么版别,能够运用uname -m查看架构)
能够运用wget下载:wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux_sbsa.run
假如没有外网环境用不了wget,运用本机下载这个.run文件后,然后传到服务器,运用sh装置。
1.2、装置CUDA驱动
假如是非root用户,终端cd进入下载好.run文件的目录,运用sh装置:sh cuda_11.8.0_520.61.05_linux_sbsa.run
首要会弹出问你接不接受一个协议,输入accept:
然后回弹出装置装备:
↑↓进行上下,←→进行扩展,enter进行挑选和取消,A进行扩展选项
咱们取消掉Driver选项,由于机器现已装置了Driver,只装置CUDA Toolkit和CUDA documentation:
然后挑选选中Options:
进入Toolkit Options:
/usr这种非用户目录的选项都要去掉,我这儿全去掉了,另外进入 Change Toolkit Install Path设置cuda装置到自己具有写入权限的途径(一定要是自己的目录,提前建好文件夹,不然你安不了)
做完Done,回到Options菜单, 更改Library install path (不改不可,它会悄悄写入/var/lib) 相同设置装置到自己具有写入权限的途径(相同一定要是自己的目录) 装备好以上两个自定义目录后,挑选Done,等待顷刻会呈现一个summary,阐明装置成功: 并且能在文件目录中看到cuda里的文件都现已装置好了:
1.3、装备环境变量
装置好后还不能运用nvcc –V,需求装备环境变量:
输入 vim ~/.bashrc
进入环境变量,进行更改:
# CUDA
export PATH="/刚刚的途径/cuda-10.1/bin:$PATH"
export LD_LIBRARY_PATH="/刚刚的途径/cuda-11.8/lib64:/刚刚的途径/cuda-11.8/mylib/lib64:$LD_LIBRARY_PATH"
途径要记住换成自己的:
添加好后,输入wq!保存,然后刷新环境变量:source ~/.profile
最后测验CUDA,输入nvcc -V
,假如显现了版别号,则恭喜大获成功:
1.4、装置cudnn
这儿参考了:blog.csdn.net/YY007H/arti…
1.5、装置magma-cuda
magma-cuda首要用于大规模线性代数计算和GPU加速。
首要进入anaconda官方网站:anaconda.org/search?q=ma… 将其下载后,迁移到Anaconda装置目录的pkgs目录下(由于注conda install 缓存文件途径一般便是anaconda/pkgs),假如下载的包名是linux-64_开头的,要重命名把linux-64_去除,以包名开头,不然conda辨认不到。然后运用终端cd到pkgs目录那里,输入:
conda install --use-local 包名.tar.bz2
等待顷刻,装置完成后输入conda list就能够看到包名了,假如看不到包名的话大概率是包名的问题,比如linux-64_magma-cuda118-2.6.1-1.tar.bz2要改成magma-cuda118-2.6.1-1.tar.bz2。
最后输入:conda list验证是否成功装置magma-cuda