ChatGPT背后的经济账

ChatGPT能否替代Google、百度这样的传统查找引擎?为什么我国不能很快做出ChatGPT?当时,对这些问题的评论大多囿于大型言语模型(LLM)的技能可行性,忽略或者非常粗糙地估量了完成这些方针背面的经济本钱,然后造成对LLM的开发和运用违背实践的误判。

本文作者从经济学切入,具体推导了类ChatGPT模型查找的本钱、练习GPT-3以及制作LLM本钱轨迹的通用结构,为评论LLM本钱结构和其未来发展供给了可贵的参阅视角。

作者|Sunyan

翻译|杨婷、徐佳渝、贾川

要点概览:

  • LLM驱动的查找现已在经济上可行:大略估量,在现有查找本钱结构的根底上,高功用LLM驱动查找的本钱约占当下预估广告收入/查询的15%。
  • 但经济可行并不意味着经济合理:LLM驱动查找的单位经济性是有利可图的,但关于具有超1000亿美元查找收入的现有查找引擎来说,添加此功用或许意味着超100亿美元的额外本钱。
  • 其他新式的LLM驱动事务赢利很高:比方Jasper.ai运用LLM生成案牍,很或许有SaaS服务那样的毛利率(超75%)。
  • 关于大公司而言,练习LLM(即便是从头开始)的本钱并不高:现在,在公有云中练习GPT-3仅需花费约140万美元,即便是像PaLM这样最先进的模型也只需花费约1120万美元。
  • LLM的本钱或许会显着下降:自GPT-3发布的两年半时间里,与GPT-3功用适当的模型的练习和推理本钱下降了约80%。
  • 数据是LLM功用的新瓶颈:与添加高质量练习数据集的巨细比较,添加模型参数的数量能取得的边沿收益越来越小。

1、动机

LLM的惊人体现引发了人们的广泛猜想,这些猜想首要包括LLM或许引发的新式商业形式和对现有形式的影响。

查找是一个风趣的机会,2021年,仅谷歌就从查找相关的广告中取得了超1000亿美元的收入[1]。ChatGPT(一个运用LLM的谈天机器人,它可以生成高质量的答案,以答复相似于查找的查询)的“病毒性”传播现已引发了许多关于查找范畴潜在影响的考虑,其间一个就是LLM现在的经济可行性:

  • 一位声称是谷歌员工的人在HackerNews上标明,要想施行由LLM驱动的查找,需求先将其本钱下降10倍。
  • 与此一起,微软估量将在3月份推出LLM版别的Bing[3],而查找初创公司如You.com现已将该技能嵌入到了他们的产品之中[4]。
  • 最近,《纽约时报》报导,谷歌将在今年推出带有谈天机器人功用的查找引擎[5]。

更广泛的问题是:将LLM归入当时产品和新产品的经济可行性怎么? 在本文中,咱们整理了当今LLM的本钱结构,并分析其未来或许的发展趋势。

2、重温LLM工作原理

尽管后续章节的技能性更强,但这篇文章对机器学习熟悉程度不做要求,即便不熟悉这方面内容的人也可以放心阅览。为了阐明LLM的特别之处,现做一个简要复习。

言语模型在给定上下文的情况下,对或许输出的token作出猜测:

ChatGPT背后的经济账

自回归言语模型(Autoregressive Language Model)输入上下文和输出内容的图示(在实践中,token一般是子词:即“happy”或许被分解为两个token,例如“hap”、“-py”)

为了生成文本,言语模型根据输出token的概率重复采样新token。例如,在像ChatGPT这样的服务中,模型从一个初始prompt开始,该prompt将用户的查询作为上下文,并生成token来构建呼应(response)。新token生成后,会被附加到上下文窗口以提示下一次迭代。

言语模型现已存在了几十年。当下LLM功用的背面是数十亿参数的高效深度神经网络(DNN)驱动。参数是用于练习和猜测的矩阵权重,浮点运算(FLOPS)的数值一般与参数数量(parameter count)成份额。这些运算是在针对矩阵运算优化的处理器上核算的,例如GPU、TPU和其他专用芯片。

跟着LLM参数量呈指数增加,这些操作需求更多的核算资源,这是导致LLM本钱添加的潜在原因。

3、LLM驱动查找的本钱

本节,咱们将预算运转LLM驱动查找引擎的本钱。应该怎么施行这样的查找引擎仍是一个活跃的研究范畴,咱们这里首要考虑两种办法来评价供给此类服务的本钱范围:

  • ChatGPT Equivalent:一个在巨大练习数据集上练习的LLM,它会将练习期间的常识存储到模型参数中。在推理进程中(运用模型生成输出),LLM无法拜访外部常识[6]。
  • 这种办法有如下两大缺陷:
    • 容易“梦想”现实。
    • 模型常识滞后,仅包括最终练习日期之前的可用信息。
  • 2-Stage Search Summarizer:一种架构上相似的LLM,可以在推理时拜访Google或Bing等传统查找引擎。在这种办法的第一阶段,咱们经过查找引擎运转查询以检索前K个成果。在第二阶段,经过LLM运转每个成果以生成K个呼应,该模型再将得分最高的呼应回来给用户[7]。
  • 比较ChatGPT Equivalent,这种办法的优点是:
    • 可以从检索到的查找成果中引用其来历。
    • 能获取最新信息。

然而,关于相同参数数量的LLM,这种办法需求更高的核算本钱。运用这种办法的本钱也添加了查找引擎的现有本钱,因为咱们在现有查找引擎的成果上添加了LLM。

一阶近似:根底模型API

最直接的本钱预算办法是参阅商场上现有根底模型API的标价,这些服务的定价包括本钱的溢价部分,这部分是供应商的赢利来历。一个代表性的服务是OpenAI,它供给根据LLM的文本生成服务。

OpenAI的Davinci API由GPT-3的1750亿参数版别供给支撑,与支撑ChatGPT的GPT-3.5模型具有相同的参数数量[8] 。现在用该模型进行推理的价格约为0.02美元/750个单词(0.02美元/1000个token,其间1000token约等于750个单词);用于核算定价的单词总数包括输入和输出[9]。

ChatGPT背后的经济账

按模型功用区分的根底模型API定价 (OpenAI)

咱们这里做了一些简略假定来估量将支付给OpenAI的查找服务费用:

  • 在ChatGPT equivalent的完成中,咱们假定该服务均匀针对50字的prompt生成400字的呼应。为了发生更高质量的成果,咱们还假定模型对每个查询采样5个呼应,从中挑选最佳呼应。因而:

ChatGPT背后的经济账

在2-Stage Search Summarizer的完成中,呼应生成进程是相似的。然而:

  • 提示显着更长,因为它一起包括查询和查找成果中的相关部分
  • 为每K个查找成果生成一个单独的LLM呼应
  • 假定K = 10并且查找成果中的每个相关部分均匀为1000个单词:

ChatGPT背后的经济账

假定优化的缓存命中率为30%(谷歌历史查找缓存命中率的下限[10])和OpenAI云服务的毛利率为75%(与典型的SaaS服务共同),咱们的一阶估量意味着:

ChatGPT背后的经济账

依照数量级,ChatGPT Equivalent服务的估量云核算本钱为0.010美元/次,与公众评论共同:

ChatGPT背后的经济账

OpenAI首席履行官Sam Altman谈ChatGPT每次谈天的本钱([推特](twitter.com/sama/status…

鉴于ChatGPT Equivalent的上述缺陷(即梦想现实、模型信息陈旧),在实践操作中,LLM驱动查找引擎的开发者更或许布置2-Stage Search Summarizer变体。

2012年,谷歌查找主管标明,其查找引擎每月处理的查找次数达1000亿次[11]。世界银行数据显示:全球互联网普及率已从2012年的34%上升到了2020年的60%[12]。假定查找量按份额增加,则估量其年均查找量将达2.1万亿次,与查找相关的收入将达约1000亿美元[13],均匀每次查找的收入为0.048美元。

换句话说,2-Stage Search Summarizer的查询本钱为0.066美元/次,约为每次查询收入0.048美元的1.4倍。

  • 经过以下优化,预估本钱大约会降至原来的1/4:1、量化(运用较低精度的数据类型) 2、常识蒸馏(经过学习较大的模型去练习一个较小的模型) 3、练习更小的“核算优化”模型,该模型具有相同的功用(稍后将对此打开更具体的评论)
  • 假定云核算的毛利率约为50%,与依靠云服务供给商比较,运转自建(内部)根底设施(infrastructure in-house)会使本钱下降至当时的1/2。

归纳以上改善,下降至原有本钱的1/8之后,在查找中融入高功用LLM的本钱大约占据当时查询收入的15%(现有的根底设施本钱除外)。(注:本钱最低可降至 0.066 美元/次 * 1/4 * 1/2, 约定于0.008美元,因而大约占每次查询收入 0.048 美元的 15%)

深度解析:云核算本钱

现在,SOTA大型言语模型一般会用到可比较的模型架构(最常见的是仅包括解码器的Transformer模型),在推理进程中每个token的核算本钱(以FLOPs为指标)约为2N,其间N为模型参数数量(model parameter count)[14]。

现在,NVIDIA A100是AWS最具本钱效益的GPU挑选,若预订1年运用该GPU,具有8个A100的AWS P4实例的有效时薪(effective hourly rate)将达19.22美元。[15]每个A100供给峰值312 TFLOPS(万亿次浮点数/秒)FP16/FP32 混合精度吞吐量,这是LLM练习和推理的要害指标[16]。FP16/FP32混合精度是指以16位格局(FP16)履行操作,而以32位格局(FP32)存储信息。因为FP16的开支较低,混合精度不仅支撑更高的FLOPS吞吐量,并且坚持准确成果所需的数值稳定性也会坚持不变[17]。

假定模型的FLOPS运用率为21.3%,与练习期间的GPT-3坚持共同(尽管最近越来越多的模型功率得以进步,但其FLOPS运用率关于低推迟推理而言仍充满应战)[18]。因而,关于像GPT-3这样具有1750亿参数的模型:

ChatGPT背后的经济账

咱们也运用了根据GCP TPU v4定价( GCP TPU v4 pricing)相同的核算办法,并得到了相似的成果[19]:

ChatGPT背后的经济账

预估GPT-3经过云服务供给商 (AWS, GCP)每处理1000个token所需的推理本钱

OpenAI的API定价为0.02美元/1000词,但咱们估量其本钱约为0.0035美元/1000词,占定价的20%左右。这就意味着:关于一台一向运转的机器而言,其毛利率约为80%。 这一预算与咱们之前设想的75%毛利率大致相同,进而为ChatGPT Equivalent和2-Stage Search Summarizer查找本钱预算供给了合理性验证(sanity check)。

4、练习本钱怎么?

另一个热门话题是GPT-3(具有1750亿参数)或最新的LLM(如具有2800亿参数的Gopher和具有5400亿参数的PaLM)的练习本钱。根据参数数量和token数量,咱们构建了一个用于预算核算本钱的结构,尽管稍作修改,但相同适用于此:

  • 每个token的练习本钱一般约为6N(而推理本钱约为2N),其间N是LLM的参数数量[20]
  • 假定在练习进程中,模型的FLOPS运用率为46.2% (而在之前的推理进程中,模型的FLOPS运用率约为21.3%),与在TPU v4芯片上进行练习的PaLM模型(具有5400亿参数)共同[21]。

1750亿参数模型的GPT-3是在3000亿token上进行练习的。谷歌运用了GCP TPU v4芯片来练习PaLM模型,若咱们现在也像谷歌那样做,那么现在的练习本钱仅为140万美元左右。

ChatGPT背后的经济账

此外,咱们还将该结构运用到一些更大的LLM模型中,以了解其练习本钱。

ChatGPT背后的经济账

预估LLM在GCP TPU v4芯片上的练习本钱

5、制作本钱轨迹的通用结构

为了推导LLM的推理本钱/练习本钱,咱们总结了如下结构:

ChatGPT背后的经济账

密布激活纯解码器LLM模型Transformer(Densely Activated Decoder-Only Transformer LLMs)的推理本钱和练习本钱(其间“N”是模型参数数量,“processor”是指TPU、GPU或其他张量处理加速器)

因而,咱们假定LLM的架构相似,那么推理本钱和练习本钱将根据上述变量的改变而改变。尽管咱们会具体考虑每个变量,可是以下部分才是要害点:

自2020年GPT-3发布以来,运用与GPT-3一样强壮的模型进行练习和推理的本钱大大下降,低于先前的五分之一。

ChatGPT背后的经济账

比较2020年推出的GPT-3,与其功用对等的模型的推理与练习本钱下降情况总结

参数数量功率:巨型言语模型参数每年增加10倍的神话

考虑到过去5年中模型参数呈指数增加,咱们普遍猜想:下一代LLM模型很或许是万亿参数(密布激活)模型:

ChatGPT背后的经济账

LLM中模型参数数量的增加

尽管LLM的参数数量每年约增加10倍,可是大多数模型练习数据集的巨细并没有显着改变:

ChatGPT背后的经济账

所选LLM的模型参数数量与练习token数量 (练习核算最优大言语模型)

然而,最新文献标明,假定核算资源和硬件运用率(即练习“核算最优”模型)坚持不变,重视扩展参数数量(scaling parameter count)并不是功用最大化的最佳方式:

ChatGPT背后的经济账

Google DeepMind的研究人员将一个参数函数(parametric function)拟合到他们的实验成果中,发现参数数量N的增速应与练习token数量D的增加速度大致相同,然后让模型丢失L完成最小化(即功用最大化):

ChatGPT背后的经济账

模型丢失的参数函数 (练习核算最优大言语模型)

研究人员还练习了一个名为Chinchilla的模型(具有700亿的参数)。尽管该模型的核算资源与Gopher(具有2800亿参数)相同,可是该模型是在1.4万亿token上进行练习的而非3000亿token。Chinchilla的功用显着优于具有相同FLOPs预算的大型模型,然后证明了大多数LLM过度支出了核算量和对数据的渴望 (译者注:换言之,对大多数LLM来说,运用更多的数据来练习比增大模型参数量要愈加合算)。

ChatGPT背后的经济账

经过练习数据巨细与模型参数来猜测模型丢失(过错更少:Chinchilla的自然环境意义)

尽管Chinchilla的参数(以及推理核算需求)比GPT-3少60%,可是其功用远远优于具有1750亿参数的GPT-3模型。

实践上,即便咱们用与GPT-3相同的3000亿token数据集去练习一个万亿参数模型,仍可以预见该模型的体现不如Chinchilla:

ChatGPT背后的经济账

万亿参数模型相应丢失项的相对量级(0.03的模型参数丢失与0.25的练习token丢失)也标明,经过添加模型巨细取得的边沿效益低于添加数据量取得的边沿效益。

展望未来,咱们不会继续扩展模型参数数量,而是将增量核算资源(incremental computational resources)转移到质量适当的更大数据集上进行练习,以取得极佳的功用。

Cost/FLOP功率

关于练习LLM而言,最重要的硬件功用指标(hardware performance metric)是可完成的混合精度FP16/FP32 FLOPS。改善硬件旨在完本钱钱最小化,一起使得峰值FLOPS吞吐量和模型FLOPS运用率完成最大化。

尽管这两个部分在硬件开发中密不可分,但为了让分析变得更简略,本节要点重视吞吐量,下一节再评论运用率。

ChatGPT背后的经济账

现在,咱们现现已过检查云实例定价(cloud instance pricing)预算了Cost/FLOP功率。为了进行下一步探究,咱们预算了运转以下机器的本钱。首要包括以下两个方面:1)硬件购买(hardware purchase) 2)能源支出(energy expense)。为阐明这一点,咱们再来看看GPT-3(一款由OpenAI推出的模型,该模型在Microsoft Azure的10000个V100 GPU上练习了14.8天)[22]:

ChatGPT背后的经济账

2020年用英伟达V100 GPU练习GPT-3的本钱(碳排放与大型神经网络练习)

黄仁勋规律(英伟达首席履行官黄仁勋于2018年提出)指出,在硬件本钱方面,GPU的增加速度比五年前快了25倍[23]。在练习LLM的布景下,GPU的功用得到了很大进步,这很大程度上得益于张量中心(Tensor Cores)(AMD采用的是矩阵中心(matrix cores))。此外,GPU不再将矢量作为核算原语,而是转为矩阵,然后完成了功用更好、功率更高的混合精度核算。

2016年,NVIDIA经过V100数据中心GPU初次推出了张量中心。与最初引入的张量中心比较,尽管这一改善不太显着,可是每一代张量中心都进一步进步了吞吐量。现在,关于用于练习LLM的数据中心GPU,咱们仍能看到每一代GPU的吞吐量都进步了50%(或者说年均吞吐量进步了22%左右)。

ChatGPT背后的经济账

数据中心GPU FP16/FP32吞吐量/美元 (NVIDIA)

ChatGPT背后的经济账

桌面GPU和数据中心GPU、按精度区分的吞吐量/美元 (英伟达,深度学习推理中的核算和能源消耗趋势)

能源功率进步得更快。现在咱们可以看到,用于练习LLM的数据中心GPU的代际吞吐量/瓦特进步了80%(或者说年均吞吐量进步了34%):

ChatGPT背后的经济账

数据中心 GPU FP16/FP32 吞吐量/瓦特 (英伟达)

ChatGPT背后的经济账

按精度区分的桌面和数据中心GPU吞吐量/瓦特(英伟达,深度学习推理中的核算和能耗趋势)

仅从V100(用于练习 GPT-3)到行将推出的H100的改善来看,咱们估量内部练习本钱将下降58%(即练习本钱由74.4万美元下降到31.2万美元)。

ChatGPT背后的经济账

现在运用英伟达H100 GPU练习GPT-3的本钱

展望未来,咱们猜测,跟着硬件设计的不断立异,硬件本钱和能效将逐渐改善。 例如,从V100到A100 GPU,NVIDIA添加了稀少特性(sparsity features),这进一步将某些深度学习架构的吞吐量进步了2倍[24] 。NVIDIA正在H100中添加对FP8数据类型的本地支撑,当与推理量化等现有技能相结合时,可以进一步进步吞吐量[25]。

此外,TPU和其他专用芯片的出现从根本上重塑了深度学惯用例的芯片架构。谷歌的TPU建立在脉动阵列结构(systolic array architecture)之上,可显着削减寄存器运用,进步吞吐量[26]。正如下一节将提到的,跟着咱们将练习和推理扩展到大型参数模型,最近许多硬件都着力于进步运用率。

硬件运用率进步

出于内存需求,LLM练习的首要应战之一就是将这些模型从单个芯片扩展到多个体系和集群等级。在典型的LLM练习中,设置保存优化器状况、梯度和参数所需的内存为20N,其间N是模型参数数量[27]。

因而,BERT-Large(2018年早期的LLM之一,具有3.4亿参数)仅需6.8GB内存,就可轻松装入单个桌面级GPU。另一方面,关于像GPT-3这样的1750亿参数模型,内存要求转换为3.5TB。一起,NVIDIA最新的数据中心 GPU(H100)仅包括80GB的高带宽内存(HBM),这标明至少需求44个H100才能满足GPT-3的内存要求。[28]此外,即便在10000个V100 GPU上练习GPT-3也需求14.8天。

因而,即便咱们添加用于练习的芯片数量,FLOPS运用率也依然需求坚持高水平,这一点至关重要。

ChatGPT背后的经济账

硬件运用率的第一个维度是在单芯片层面。 在单个A100 GPU上练习GPT-2模型时,硬件运用率达35.7%[29]。现实证明,片上内存(on-chip memory)和容量是硬件运用的瓶颈之一:处理器内核中的核算需求重复拜访HBM,而带宽缺乏会抑制吞吐量。相同,有限的本地内存容量会迫使从推迟较高的HBM进行更频频的读取,然后约束吞吐量[30]。

硬件运用率的第二个维度与芯片到芯片的扩展有关。练习像GPT-3这样的LLM模型需求跨多个GPU对模型和数据进行区分。正如片上存储器的带宽或许成为硬件运用的瓶颈一样,芯片间互连的带宽也或许成为硬件运用的约束要素。跟着V100的发布,NVIDIA的NVLink完成了每个GPU 300GB/s的带宽。关于A100来说,宽带速度完成了600GB/s[31]。

硬件运用率的最终一个维度是体系到体系的扩展。一台机器最多可包容16个GPU,因而扩展到更多数量的GPU要求跨体系的互连不能成为功用瓶颈。为此,Nvidia的Infiniband HCA在过去3年中将最大带宽进步了2倍[32]。

在第二和第三个维度上,软件区分策略是硬件有效运用的要害考虑要素。经过结合模型和数据并行技能,2022年运用MT-NLG的Nvidia芯片集群等级的LLM练习的模型FLOPS运用率达到了30.2%[33],而运用GPT-3的模型FLOPS运用率在2020年只要21.3%:

ChatGPT背后的经济账

挑选LLM的模型FLOPS运用率(PaLM:运用途径扩展言语建模)

TPU等专用硬件完成了更高的功率。

谷歌5400亿参数的PaLM模型在TPU v4芯片上完成了46.2%的模型FLOPS运用率,是GPT-3练习运用率的2.2倍[34]

FLOPS运用率的进步得益于更高效的并行练习(运用Google的Pathways ML体系)以及从根本上TPU具有彻底不同的架构。该芯片的脉动阵列结构和每个内核的显着的本地内存密度(local memory density)下降了高推迟全局内存(global memory)的读取频率。

相同地,咱们可以看到CerebrasGraphcore和SambaNova等公司在处理器中分配了更多的同享内存容量。展望未来,咱们估量其他新式立异,例如将芯片扩展到晶圆级以削减推迟/添加带宽,或经过可编程单元优化数据拜访形式等将进一步推进硬件运用率的发展[35]。

6、大型言语模型行将迎来全盛时期

据《纽约时报》近来报导,谷歌声称ChatGPT是其查找事务的“红色警报”( code red),它的查找量呈病毒式发展。

[36]从经济角度来看,经过大略预算,将高功用LLM归入查找将花费约15%的查询收入,这标明该技能的布置现已切实可行。然而,谷歌的商场主导地位阻碍了它成为这方面的先行者:谷歌现在的查找收入为1000亿美元,将高功用LLM归入查找会使谷歌的盈余才能削减一百多亿美元。

另一方面,也就难怪微软会方案将大言语模型归入Bing了[37]。尽管LLM支撑的查找本钱高于传统查找,并且与谷歌比较,微软查找引擎的商场份额要低得多,可是微软并未亏本。因而,假如微软可以成功地从谷歌手中夺取查找商场份额,那么即便现有查询本钱更高,微软依然可以取得极高的赢利。

风趣的是,关于其他产品,经过布置LLM现已可以经过SaaS来盈余。例如,最近估值为15亿美元、运用LLM生成案牍的Jasper.ai收费为82美元/100000字(适当于1.09美元/1000个token)[38]。运用OpenAI的Davinci API 定价为 0.02美元/1000个token,即便咱们对多个呼应(response)进行采样,毛利率也或许远高于75%。

相同令人惊讶的是,现在在公有云中仅需约140万美元即可对GPT-3进行练习,并且即便是SOTA模型(如PaLM,约1120万美元)的练习本钱也不会太高。在过去的两年半里,相似GPT-3等模型的练习本钱下降了80%以上,高功用大言语模型的练习本钱将进一步下降。

换句话说,练习大言语模型并不廉价,但也没那么烧钱,练习大言语模型需求大量的前期投入,但这些投入会逐年取得报答。更近一步,Chinchilla论文标明,在未来,比较资金,高质量数据会成为练习LLM的新式稀缺资源之一,因为扩展模型参数数量带来的报答是递减的。

参阅文献

  1. Alphabet 2021 10K
  2. Comparing Google and ChatGPT
  3. Microsoft and OpenAI Working on ChatGPT-Powered Bing in Challenge to Google
  4. Introducing YouChat – The AI Search Assistant that Lives in Your Search Engine
  5. Google Calls In Help From Larry Page and Sergey Brin for A.I. Fight
  6. ChatGPT: Optimizing Langauge Models for Dialogue(实践上,ChatGPT还在根底1750亿参数言语模型之上运用了RLHF(Reinforcement Learning from Human Feedback,即从反馈中取得强化学习)机制,但为了简略起见,咱们不考虑强化学习本钱。)
  7. Teaching language models to support answers with verified quotes
  8. ChatGPT: Optimizing Langauge Models for Dialogue
  9. OpenAI Pricing
  10. Building Software Systems at Google and Lessons Learned
  11. What’s New With Google Search
  12. Our World in Data: Internet
  13. Alphabet 2020 10K
  14. Scaling Laws for Neural Language Models(关于encoder-decoder模型,推理FLOPs约为N,而不是仅解码器模型的2N)
  15. AWS EC2 P4 Instances
  16. NVIDIA A100 Tensor Core GPU Architecture
  17. Mixed precision training(针对FP16/FP32描绘的一切内容也适用于BF16/FP32混合精度运算,这些运算在A100和其他处理器上具有相似的吞吐量)
  18. PaLM: Scaling Langauge Modeling with Pathways
  19. Cloud TPU pricing
  20. Scaling Laws for Neural Language Models(关于encoder-decoder模型,练习FLOPS约为3N,而不是仅解码器模型的6N)
  21. PaLM: Scaling Langauge Modeling with Pathways
  22. Carbon Emissions and Large Neural Network Training
  23. GTC 2018 Keynote with NVIDIA CEO Jensen Huang
  24. NVIDIA A100 Tensor Core GPU Architecture
  25. NVIDIA Hopper Architecture In-Depth
  26. An in-depth look at Google’s first Tensor Processing Unit (TPU)
  27. Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model(假定根据运用混合精度练习的Adam优化器,每个参数占用20字节的内存)
  28. NVIDIA Hopper Architecture In-Depth
  29. State-of-the-Art Language Modeling Using Megatron on the NVIDIA A100 GPU
  30. Which GPU(s) to Get for Deep Learning: My Experience and Advice for Using GPUs in Deep Learning
  31. NVLink and NVSwitch
  32. NVIDIA ConnectX InfiniBand Adapters
  33. PaLM: Scaling Langauge Modeling with Pathways
  34. PaLM: Scaling Langauge Modeling with Pathways
  35. Cerebras Architecture Deep Dive: First Look Inside the HW/SW Co-Design for Deep Learning
  36. Graphcore IPU Hardware Overview
  37. SambaNova SN10 RDU at Hot Chips 33
  38. A New Chat Bot is a ‘Code Red’ for Google’s Search Business
  39. Microsoft and OpenAI Working on ChatGPT-Powered Bing in Challenge to Google
  40. Jasper.ai Pricing

欢迎 Star、试用 OneFlow 最新版别:
github.com/Oneflow-Inc…