鹅厂发布的这个算力集群,最快4天训练万亿参数大模型

鹅厂发布的这个算力集群,最快4天训练万亿参数大模型

大模型要成功,算力是要害。

这是腾讯云面向大模型练习场景,发布的全新一代的HCC高功能核算集群功能参数:

“算力功能和上一代相比进步3倍,服务器接入带宽从1.6T进步到3.2T。”

采用最新一代腾讯云星星海自研服务器,并搭载NVIDIA H800 Tensor Core GPU的这代HCC高功能集群,单GPU卡支撑输出最高1979 TFlops的算力。

具体强在哪里?

去年10月,腾讯完结首个万亿参数的AI大模型——混元NLP大模型练习。在平等数据集下,将练习时刻由50天缩短到11天。假如根据新一代集群,练习时刻将进一步缩短至4天。

01、单纯堆卡,算力并不能线性增加

模型热度继续高涨,但要练习一个成功的大模型,算力,算法、数据三者缺一不可。

越强的大模型,越需求更强的算力来完结练习。具有强大的算力是AI大模型成功的要害。

在单体服务器核算才干有限的情况下,需求将上千台服务器相连,打造大规划、分布式的高功能核算集群。业界标杆的大模型,对练习算力需求遍及十分高,使用不计其数张GPU卡。

如此庞大的参数规划,单独一块GPU运算卡乃至都完结不了最基本的装载,这也使得我们要用网络联接不计其数的服务器组建大规划算力集群,为大模型供给所需的算力。

HCC高功能核算集群便是在这样的需求下诞生,但是,要把这么多的卡“串联“起来,背面需求很强的技能才干。

因为依据木桶效应,单纯堆卡并不能带来算力的线性增加。它需求的是核算、存储、网络以及上层的结构等各个环节全面协调配合,才干输出一个高功能、高带宽、低延迟的智算才干渠道。

鹅厂发布的这个算力集群,最快4天训练万亿参数大模型

02、最强算力背面是底层自研技能的突破

为了供给极致的算力输出,腾讯云HCC高功能集群,从底层基础设施到上层的练习结构,做了多方面的技能立异。

2.1 核算:业界抢先的超高密度,将单点算力功能进步至更高

服务器的单机功能是集群算力的基础。在非稀少标准情况下,新一代集群单GPU卡支撑输出最高 495 TFlops(TF32)、989 TFlops (FP16/BF16)、1979 TFlops(FP8)的算力。

针对大模型练习场景,腾讯云星星海服务器采用6U超高密度规划,相较职业可支撑的上架密度进步30%;

使用并行核算理念,经过CPU和GPU节点的一体化规划,将单点算力功能进步至更高;

全面晋级第四代英特尔至强扩展处理器,服务器PCIe带宽、内存带宽最高进步100%。

2.2 网络:自研星脉高功能核算网络,将集群算力再进步20%

我们知道,模型参数量越大,对带宽的需求就越高。不计其数的GPU卡协同工作数周乃至更久,GPU 与 GPU 间、服务器与服务器节点之间存在海量的内部数据交互需求。

传统的中小模型练习,往往只需求少数 GPU 服务器参与,跨服务器的通讯需求相对少,可以沿袭通用的 100Gbps 带宽。而万亿参数大模型练习,是一种带宽敏感的核算事务,往往是All-to-All的通讯模式。

在大模型场景下,相比单点GPU毛病只影响集群算力的千分之几,一条链路的负载不均导致网络堵塞,就会成为木桶短板,影响到数十个乃至更多GPU的连通性。

一起,集群练习也会引入额外的通讯开支,导致 N 个 GPU 算力达不到单个GPU 算力的N 倍。业界开源的GPU调集通讯库(比如NCCL),也不能将网络的通讯功能发挥到极致。

鹅厂发布的这个算力集群,最快4天训练万亿参数大模型

假如说业界最新代次的GPU是跑车,那么我们需求一条专业赛道,才干让N个GPU组成的大模型练习集群最大极限地发挥潜力。

腾讯自研的星脉高功能核算网络,便是这条专业赛道。这条赛道对GPU集群网络做了深度定制。增加了网络节点带宽,为核算节点供给3.2T ETH RDMA高功能网络,大幅降低了通讯耗时的占比。

这相当于相同的GPU卡,用超带宽网络将集群算力提至更高。实测结果显现,搭载相同的GPU,最新的3.2T星脉网络相较1.6T网络,让集群全体算力进步20%。

这条赛道,对“交通规则”也做了优化。在大规划的练习集群中,GPU之间的通讯实际上由多种形式的网络承载,有机间网络,也有机内网络。

传统上的通讯计划,存在大量的机间网络通讯,导致集群的通讯开支很大。星脉高功能核算网络将两种网络一起使用起来,将小流聚合为大流,经过削减流量的数目,从而进步整网的传输功能。实测显现,在大规划All-to-All场景下,星脉高功能核算网络能帮助通讯的传输性进步30%。

鹅厂发布的这个算力集群,最快4天训练万亿参数大模型

根据多轨迹聚合的无堵塞网络架构、主动拥塞控制和定制加快通讯库,目前,新一代集群能供给业界抢先的集群构建才干,支撑单集群高达十万卡级别的组网规划。

腾讯自研高功能调集通讯库TCCL,根据星脉网络硬件渠道深度优化,在全局路径规划、拓扑感知亲和性调度、网络毛病实时告警/自愈等方面融入了定制规划的解决计划。相对业界开源调集通讯库,为大模型练习优化40%负载功能,消除多个网络原因导致练习中断问题。

在超大集群场景下,仍然能保持优异的通讯开支比和吞吐功能,满意大模型练习以及推理事务的横向扩展。

2.3 存储:TB级吞吐才干和千万级IOPS,削减核算节点等待

近5年,模型参数量增加十万倍,而GPU显存只增加了 4 倍。理论上,云上的池化资源能解决这一问题。

但练习场景下,几千台核算节点会一起读取一批数据集,存储桶还面临着高并发的问题。大模型的数据集主要是GB级的大文件,从加载模型到启动完结需求数分钟,假如GPU资源闲置,也会拖慢全体练习功率

假如说大模型算力中的网络,是为GPU修了一条专业赛道。那么高功能存储,则是一个“秒换轮胎”的维修站,提前备好数据,尽量削减核算节点的等待,让集群功能进一步逼近最优。

新一代集群,引入了腾讯云最新自研存储架构,具有TB级吞吐才干和千万级IOPS,支撑不同场景下对存储的需求。

COS+GooseFS计划,供给根据目标存储的多层缓存加快,大幅进步端到端的数据读取功能,为大模型场景供给海量、极速、高性价比的存储计划;将公开数据集、练习数据、模型结果一致存储到目标存储COS中,完成数据一致存储和高效流通。GooseFS按需将热数据缓存到GPU内存和本地盘中,为大模型练习供给低延时的本地化访问才干,加快练习进程、进步练习功率。

鹅厂发布的这个算力集群,最快4天训练万亿参数大模型

CFS Turbo高功能并行文件存储,采取多级缓存加快的计划。根据全分布式架构,供给100GB/s带宽、1000万IOPS的极致功能。并经过持久化客户端缓存技能,将裸金属服务器本地NVMe SSD和Turbo文件系统构成一致命名空间,完成微秒级延时,解決大模型场景大数据量、高带宽、低延时的诉求。一起,经过智能分层技能,主动对冷热数据分层,节省80%的存储成本,供给极致的性价比。

鹅厂发布的这个算力集群,最快4天训练万亿参数大模型

在底层架构之上,针对大模型练习场景,新一代集群集成了腾讯云自研的TACO Train练习加快引擎,对网络协议、通讯策略、AI结构、模型编译进行大量系统级优化,大幅节省练习调优和算力成本。

腾讯混元大模型背面的练习结构AngelPTM,也已经过腾讯云对外供给服务,帮助企业加快大模型落地。在腾讯云上,企业根据TI 渠道的大模型才干和工具箱,可结合产业场景数据进行精调练习,进步出产功率,快速创建和布置 AI 使用。

03、多层接入,算力更易获取

因为大模型的体量单集群的节点数十分大,草创公司通常会面临问题:单集群节点需求开多大,才干够适应AI算力的规划?

面临这一需求,在算力层面,腾讯云针对练习、推理、测试及优化场景,供给匹配计划和产品。

其中,新一代HCC高功能核算集群,面向大规划AI练习。以专用集群方式对外供给服务,腾讯云将裸金属云服务器作为节点,满配最新代次的GPU,并结合自研存储架构、节点之间经过自研星脉RDMA网络互联,给大模型练习事务供给高功能、高带宽和低延迟的一体化高功能核算。

后续,针对主动驾驶练习、自然语言处理、AIGC大模型练习、科研核算等场景下客户的高算需求,经过腾讯云裸金属、云服务器、容器、云函数等多形状多层级接入才干,都可以快速获取。

更大规划的大模型,正在逼近算力的鸿沟。以新一代集群为标志,腾讯云正在根据自研芯片、星星海自研服务器和分布式云操作系统遨驰,经过软硬一体的方式,打造面向AIGC的高功能智算网络,继续加快全社会云上立异。

重视并星标我

大众号回复「算力」即可请求内测 阅读原文

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。