最近拿到一台昇腾aarch64服务器,显卡为A100,十分可贵,可是与往常装备环境不同,服务器存在三大难题:

  1. 由于安全控制,服务器自身不能访问外网;
  2. 服务器自身为ARM架构(aarch64);
  3. 没有管理员权限,只拿到非Root用户;

本文将在以上条件的约束下,装置CUDA CUDNN magma-cuda,以便能够更好地运用这款强大的硬件设备。

一、装置CUDA和cudnn

1.1、下载CUDA驱动

1.首要查看体系的cuda驱动,能够看到这儿是12.3版别,所以咱们要下载比其低的CUDA,引荐11.8版别。

昇腾aarch64服务器装置CUDA+CUDNN+magma-cuda
然后输出nvcc –verison,假如是command not found阐明没有CUDA驱需求装置,假如输出了一大堆类型信息且版别低于上图的CUDA 驱动版别,阐明有CUDA且版别正确,就不要再装置了,跳到#二步骤。

2.进入CUDA官网,依据体系版别挑选对应的runfile,注意由于是非root用户,不要用sudo的rpm装置,只能挑选下载runfile用sh装置,由于其他版别需求管理员权限才行,(假如不知道机器是什么版别,能够运用uname -m查看架构)

昇腾aarch64服务器装置CUDA+CUDNN+magma-cuda
能够运用wget下载:wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux_sbsa.run 假如没有外网环境用不了wget,运用本机下载这个.run文件后,然后传到服务器,运用sh装置。

1.2、装置CUDA驱动

假如是非root用户,终端cd进入下载好.run文件的目录,运用sh装置:sh cuda_11.8.0_520.61.05_linux_sbsa.run 首要会弹出问你接不接受一个协议,输入accept:

昇腾aarch64服务器装置CUDA+CUDNN+magma-cuda
然后回弹出装置装备:
昇腾aarch64服务器装置CUDA+CUDNN+magma-cuda
↑↓进行上下,←→进行扩展,enter进行挑选和取消,A进行扩展选项 咱们取消掉Driver选项,由于机器现已装置了Driver,只装置CUDA Toolkit和CUDA documentation:
昇腾aarch64服务器装置CUDA+CUDNN+magma-cuda
然后挑选选中Options:
昇腾aarch64服务器装置CUDA+CUDNN+magma-cuda
进入Toolkit Options:
昇腾aarch64服务器装置CUDA+CUDNN+magma-cuda
/usr这种非用户目录的选项都要去掉,我这儿全去掉了,另外进入 Change Toolkit Install Path设置cuda装置到自己具有写入权限的途径(一定要是自己的目录,提前建好文件夹,不然你安不了)
昇腾aarch64服务器装置CUDA+CUDNN+magma-cuda

做完Done,回到Options菜单, 更改Library install path (不改不可,它会悄悄写入/var/lib)

昇腾aarch64服务器装置CUDA+CUDNN+magma-cuda
相同设置装置到自己具有写入权限的途径(相同一定要是自己的目录)
昇腾aarch64服务器装置CUDA+CUDNN+magma-cuda
装备好以上两个自定义目录后,挑选Done,等待顷刻会呈现一个summary,阐明装置成功:
昇腾aarch64服务器装置CUDA+CUDNN+magma-cuda
并且能在文件目录中看到cuda里的文件都现已装置好了:
昇腾aarch64服务器装置CUDA+CUDNN+magma-cuda

1.3、装备环境变量

装置好后还不能运用nvcc –V,需求装备环境变量: 输入 vim ~/.bashrc进入环境变量,进行更改:

# CUDA
export PATH="/刚刚的途径/cuda-10.1/bin:$PATH"
export LD_LIBRARY_PATH="/刚刚的途径/cuda-11.8/lib64:/刚刚的途径/cuda-11.8/mylib/lib64:$LD_LIBRARY_PATH"

途径要记住换成自己的:

昇腾aarch64服务器装置CUDA+CUDNN+magma-cuda
添加好后,输入wq!保存,然后刷新环境变量:source ~/.profile

最后测验CUDA,输入nvcc -V,假如显现了版别号,则恭喜大获成功:

昇腾aarch64服务器装置CUDA+CUDNN+magma-cuda

1.4、装置cudnn

这儿参考了:blog.csdn.net/YY007H/arti…

1.5、装置magma-cuda

magma-cuda首要用于大规模线性代数计算和GPU加速。

首要进入anaconda官方网站:anaconda.org/search?q=ma…

昇腾aarch64服务器装置CUDA+CUDNN+magma-cuda
将其下载后,迁移到Anaconda装置目录的pkgs目录下(由于注conda install 缓存文件途径一般便是anaconda/pkgs),假如下载的包名是linux-64_开头的,要重命名把linux-64_去除,以包名开头,不然conda辨认不到。然后运用终端cd到pkgs目录那里,输入:

conda install --use-local 包名.tar.bz2

等待顷刻,装置完成后输入conda list就能够看到包名了,假如看不到包名的话大概率是包名的问题,比如linux-64_magma-cuda118-2.6.1-1.tar.bz2要改成magma-cuda118-2.6.1-1.tar.bz2。

最后输入:conda list验证是否成功装置magma-cuda