硬件设备

比特币出现后算力逐步走到台前,比特币挖矿的衡量规范是哈希率 hash rate,每秒能核算多少个哈希值。

AI 大模型的深度学习模型基于神经网络结构,核算过程可以被视为许多矩阵核算的组合。NVIDIA 在 2007.06 推出 CUDA compute unified device architecture,提供 GPU 并行核算渠道和编程模型,充分利用 GPU 的并行核算才能,加速模型练习。在 2017 推出 Tensor Cores 的核算单元,有专门的电路规划,用于履行深度学习中的矩阵乘法和卷积等张量运算,进一步进步核算功率。

影响 GPU 算力的重要组成部分:

  • CUDA Cores,通用核算单元,首要用于履行规范的浮点运算,被规划用于高并发的数据并行核算;
  • Tenser Cores,张量专用履行单元,履行矩阵乘法和累加操作,专门为深度学习而规划;
  • 显存,临时存储 GPU 要处理的数据和处理完毕的数据;
  • 显存带宽,芯片与显存之间的数据传输速率,单位是 byte/second;
  • NVlink,Nvidia 推出的一种高速连接技能,用于连接多块 GPU 之间的数据传输,PCle 的传输速度到达 16GB/s,NVlink 2.0 到达 300GB/s,一起 NVlink 支撑拜访其他 GPU 上显存,大幅进步多 GPU 体系的性能和功率。

普通人的 GPT 白皮书(4)——基础设施

算力设备

算力基础设备最要害的是算力分配问题,GPU 单卡算力越来越强,也越来越贵,按卡分配会导致许多资源糟蹋,多使命练习在一张显卡上并行越来越重要。

Nvidia 推出了 vGPU 软件,支撑在一块物理 GPU 创立许多小型虚拟 GPU,供应给不同使命运用。物理硬件虚拟化中心是存储和运算的虚拟化,存储经过创立专用 BUF dedicated framebuffer 事前占有虚拟 GPU 的存储空间,核算经过时刻片管理器 scheduling 操控使命对 GPU 物理设备引擎的运用时刻。

这样的方法引发了两个问题,一个是安全和资源分配的平衡存在局限,另一个是物理卡切分隔离会带来许多资源糟蹋。Nvidia 在 2020 推出了 Ampere 架构芯片,最著名的是 A100,该架构可以经过硬件上的规划使得 GPU 可以创立子 GPU(GPU Instance, GI),经过对体系总线、操控总线、算力单元、全局显存、L2 Cache、数据总线等的切分重组,完成每个 GI 的数据维护、毛病隔离和服务稳定。

算力终究经过 K8S 集群的编列才能落地,需要一个强健的能支撑高并发拜访的 API Server,一个能支撑高带宽拉取模型镜像的网络体系,一起建造一个高可用高带宽的容器网络。

高性能核算

模型越大,数据量越大,练习周期越长,分布式练习已经成为常态,通讯带宽往往是约束算力提升的瓶颈。HPC high performance computing 是用来处理这个问题的,一般要优化服务器内部的通讯和服务器间的网络,服务器内部通讯优化首要处理通讯拥塞问题,服务期间通讯首要经过 RDMA remote direct memory access 网络提供同样的分布式多机多卡的集合通讯才能。

Reference

GPU硬件与软件知识
GPU内存(显存)的了解与根本运用