硬件设备

比特币出现后算力逐步走到台前，比特币挖矿的衡量规范是哈希率 hash rate，每秒能核算多少个哈希值。

AI 大模型的深度学习模型基于神经网络结构，核算过程可以被视为许多矩阵核算的组合。NVIDIA 在 2007.06 推出 CUDA compute unified device architecture，提供 GPU 并行核算渠道和编程模型，充分利用 GPU 的并行核算才能，加速模型练习。在 2017 推出 Tensor Cores 的核算单元，有专门的电路规划，用于履行深度学习中的矩阵乘法和卷积等张量运算，进一步进步核算功率。

影响 GPU 算力的重要组成部分：

CUDA Cores，通用核算单元，首要用于履行规范的浮点运算，被规划用于高并发的数据并行核算；
Tenser Cores，张量专用履行单元，履行矩阵乘法和累加操作，专门为深度学习而规划；
显存，临时存储 GPU 要处理的数据和处理完毕的数据；
显存带宽，芯片与显存之间的数据传输速率，单位是 byte/second；
NVlink，Nvidia 推出的一种高速连接技能，用于连接多块 GPU 之间的数据传输，PCle 的传输速度到达 16GB/s，NVlink 2.0 到达 300GB/s，一起 NVlink 支撑拜访其他 GPU 上显存，大幅进步多 GPU 体系的性能和功率。

算力设备

算力基础设备最要害的是算力分配问题，GPU 单卡算力越来越强，也越来越贵，按卡分配会导致许多资源糟蹋，多使命练习在一张显卡上并行越来越重要。

Nvidia 推出了 vGPU 软件，支撑在一块物理 GPU 创立许多小型虚拟 GPU，供应给不同使命运用。物理硬件虚拟化中心是存储和运算的虚拟化，存储经过创立专用 BUF dedicated framebuffer 事前占有虚拟 GPU 的存储空间，核算经过时刻片管理器 scheduling 操控使命对 GPU 物理设备引擎的运用时刻。

这样的方法引发了两个问题，一个是安全和资源分配的平衡存在局限，另一个是物理卡切分隔离会带来许多资源糟蹋。Nvidia 在 2020 推出了 Ampere 架构芯片，最著名的是 A100，该架构可以经过硬件上的规划使得 GPU 可以创立子 GPU(GPU Instance, GI)，经过对体系总线、操控总线、算力单元、全局显存、L2 Cache、数据总线等的切分重组，完成每个 GI 的数据维护、毛病隔离和服务稳定。

算力终究经过 K8S 集群的编列才能落地，需要一个强健的能支撑高并发拜访的 API Server，一个能支撑高带宽拉取模型镜像的网络体系，一起建造一个高可用高带宽的容器网络。

高性能核算

模型越大，数据量越大，练习周期越长，分布式练习已经成为常态，通讯带宽往往是约束算力提升的瓶颈。HPC high performance computing 是用来处理这个问题的，一般要优化服务器内部的通讯和服务器间的网络，服务器内部通讯优化首要处理通讯拥塞问题，服务期间通讯首要经过 RDMA remote direct memory access 网络提供同样的分布式多机多卡的集合通讯才能。

Reference

GPU硬件与软件知识
GPU内存(显存)的了解与根本运用

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

普通人的 GPT 白皮书（4）——基础设施

硬件设备

算力设备

高性能核算

Reference

近期文章

近期评论