编者按：大模型的本钱问题一直以来是咱们要点重视的问题，本文要点评论了练习大型言语模型（LLMs）需求的本钱，并扼要介绍什么是LLM以及一些用于优化大模型推理表现的技能。

尽管很难精确猜测LLMs未来会怎么开展，但能够必定，假如本钱问题得到处理，LLM会成为咱们日子中不可或缺的一部分！

以下是译文，Enjoy!

作者|Dmytro Nikolaiev (Dimid)

编译 | 岳扬

在曩昔的一段时刻，机器学习被以为是一门杂乱的、只有少数人能够了解的专业技能。但是，跟着机器学习相关的运用变得越来越强壮，大众的兴趣也随之高涨，导致许多有关人工智能的内容涌现。直到2022年11月咱们看到ChatGPT时，高潮呈现了，并且在2023年3月的GPT-4发布时到达了第二波高潮，此刻即使是原来对AI最怀疑的人也会对当下神经网络的才干感到惊讶。

人工智能遭到了许多群众的重视，网络上呈现了许多有关人工智能的内容。其间一些内容无疑是有价值的，但其间相当大一部分在传达恐惧和误导性信息，比方传达人工智能将替代一切人类作业或发现神经网络能够赚取巨额财富的秘密之类的内容。因而，消除关于机器学习和大型言语模型（LLMs）的误解，供给有价值的内容来协助人们更好地了解这些技能变得越来越重要。

本文旨在评论当下机器学习范畴中常常被忽视或误解的内容——练习大型言语模型需求的本钱。一起，本文还将扼要介绍什么是LLM以及一些或许用于优化大模型推理流程的技能。经过全面的介绍，期望能说服读者这些技能并非随便而来。了解数据规划和底层核算有助于咱们更好地了解这些强壮的东西。

大多数时分，本文将依据Meta AI最近发布的关于LLaMA的那篇论文[1]，因为它清晰明了地展现了该团队用于练习这些模型的数据和核算量。本文将分成以下几个部分：

首先，本文将扼要介绍当下最新的LLM是什么；
然后，本文将评论练习这些模型的本钱；
最后，本文将扼要介绍一些模型推理技能的优化办法。

跟着深化大型言语模型的国际，您会发现它既十分简略，一起也十分杂乱。

01 大型言语模型简介

在咱们评论与练习大型言语模型（LLM）有关的费用及本钱之前，首先让咱们简略地界说一下什么是言语模型。

2018-2019年发布的几个言语模型的参数数量

如今的LLM一般有几百亿到几千亿的参数

图1来自DistilBERT论文

简略来说，言语模型是一种被规划用于了解或生成人类自然言语的机器学习算法。 最近，言语生成模型变得越来越受欢迎，其间包含OpenAI开发的GPT模型系列：ChatGPT、GPT-4等（GPT是指Generative Pre-trained Transformer，这样命名为了表明它根据 Transformer 架构[2]）。

还有一些尽管不太盛行，但仍然很重要的模型。比方GPT-3（175B） [3] 、BLOOM（176B） [4] 、Gopher（280B） [5] 、Chinchilla（70B） [6] 和LLaMA（65B） [7] ，其间B代表参数的数量，其间许多模型也有较少参数的版本。

一些盛行的LLMs架构。图片由作者供给

现在没有关于ChatGPT特别是GPT-4参数数量的信息，但好像它们大概是相近的。

这些模型经过运用许多的文本数据进行“练习”，使它们能够学习自然言语杂乱的形式和结构。但是，它们在练习期间处理的任务十分简略：猜测序列（sequence）中下一个单词（或token）。

这种模型被称为自回归模型，这意味着它运用曩昔的输出作为未来猜测的输入，并逐渐生成输出。能够在ChatGPT的输出样例中看到：

GhatGPT发生了回复

gif取自作者运用ChatGPT的进程

你能够发现ChatGPT是逐渐生成答案，并且生成的内容有时是不完好的单词片段（chunks），这些片段（chunks）被称为tokens。

在每一个步骤中，模型将前一个输出连接到当时输入上，然后持续生成，直到到达特别的“序列结束（End of Sequence）”（EOS） token。为了简略起见，省掉了提示任务（prompt task），将单词作为tokens，这个进程能够如下所示：

解说自回归模型的文本生成。图片由作者供给

这个简略的机制加上海量的数据（一个人的一生中或许无法阅读这么多数据）使模型能够生成连接且上下文合适的文本，模拟人类的写作办法。

假如此处咱们只议论生成模型，为什么没有其他系列的模型呢？

原因很简略——文本生成任务是最难处理一起也是最让人类形象深化的任务之一。ChatGPT在5天内就获得了100万用户[8]，比之前其他任何运用都要快，并且这种势头还在持续坚持[9]。

所谓的编码器encoders[10]（BERT模型系列）或许不会太刺激人类，但它们也能够以人类的水平处理各种问题，并协助完结文本分类[11]或命名实体辨认（NER）[12]等任务。

我不会供给大言语模型能够做什么的详细比方，因为这现已在网络上遍地都是。最好的办法是自己试用ChatGPT，但也能够参考一些优秀的prompts，比方Awesome ChatGPT prompts。尽管大型言语模型具有惊人的才干，但它们现在还存在一些约束。其间最常见和最重要的包含：

存在偏见和常识静态性: 因为LLM模型是在许多个来历的数据上进行练习的，它们会无意中学习并再现这些数据中存在的偏见。此外，它们具有常识静态性，无法在不从头练习的情况下实时习惯新数据或更新常识。
不能彻底了解输入和存在虚伪信息: 尽管LLM模型能够生成相似人类的文本，但它们并不总是彻底了解输入的语境。并且，自回归生成输出文本的办法并不能避免模型发生谎言或无意义的内容。
耗费太多资源: 练习LLM模型需求许多的核算资源，这导致练习本钱和能源耗费都很高。这一要素或许会约束较小公司或个人研讨者的LLM模型开展。

这些以及其他缺陷都是AI研讨界的抢手评论话题。值得一提的是，AI范畴开展得如此之快，以至于几个月内很难猜测哪些缺陷或约束会被克服，但毫无疑问，新的缺陷和约束将会呈现。

早先的模型仅仅增加参数数量，但现在以为更好的做法是练习更小的模型，并花更长的时刻给它们供给更多的数据。这样减小了模型的规划和后续运用模型的本钱。

在大致了解LLM今后，让咱们进入这篇文章的主要部分——预算练习大型言语模型的本钱。

02 预算机器学习模型一般情况下的本钱，特别是LLM本钱

要预算练习大型言语模型的本钱，有必要考虑三个关键要素：

数据
核算资源
以及架构（或算法本身）

现在让咱们深化地评论这三个方面，了解它们对练习本钱的影响。

2.1 数据

LLMs需求许多数据来学习自然言语的形式和结构。预算数据的本钱或许具有挑战性，因为公司一般运用其事务运营中长期积累的数据以及开源数据集。

此外，还要考虑到数据需求进行清洗、标记、安排和存储，考虑到LLM的规划，数据管理和处理本钱会敏捷增加，特别是考虑到这些任务所需的基础设施、东西和数据工程师时。

举个详细的比方，已知LLaMA运用了包含1.4万亿个token的练习数据集，总巨细为4.6TB！

LLaMA模型的练习数据集，表1来自LLaMA论文

较小的模型（7B和13B）是运用了1T token练习的，而较大的模型（33B和65B）运用1.4T token的完好数据集。

LLaMA模型的training loss值随token数量的改变图，来自LLaMA论文

现在应该理解，当向咱们宣传这些数据集多么巨大时，其实并没有夸张，也能了解为什么在十年前大模型还无法做到这一点。但是，核算资源方面的问题愈加风趣。

2.2 核算资源

练习进程的花费占据了LLM练习本钱的很大一部分。练习大型言语模型需求许多核算资源，并且因为需求较强的并行处理才干，要运用功能强壮的图形处理器（GPU）。NVIDIA每年都会推出新的GPU，其本钱高达数十万美元。

假如运用云核算服务，练习这些模型的云核算服务本钱或许也是惊人的，基本上需求几百万美元，特别是考虑到需求迭代各种装备。

回到LLaMA论文，文中说，他们运用了两千个GPU，每个GPU高达80 GB的显存，如此强壮的核算才干来练习最大的65B模型也需求21天。

用于练习LLaMA模型的核算资源量，图片来自LLaMA论文

作者运用的NVIDIA A100 GPU是当下神经网络练习的常见选择。Google Cloud 渠道供给此类 GPU 的费用是每小时3.93美元。

NVIDIA A100 GPU的价格

所以咱们快速核算一下：

四百万美元的本钱并不是每个研讨人员都能负担得起的，对吧？并且这仅仅是运行一次的费用！这篇文章估计了GPT-3的练习本钱[13]，作者说需求 355 GPU-years 和 460 万美元的本钱。

2.3 架构（和基础设施）

Architecture (and Infrastructure)

一流LLM的开发还需求娴熟的研讨人员和工程师规划合理的架构并正确装备练习进程。架构是模型的基础，能够决议它如何学习和生成文本。

需求具备各种核算机科学范畴的专业常识，才干规划、完成和操控这些架构。担任发布和供给优秀项目作用的工程师和研讨人员能够获得数十万美元的薪水。有一点需求咱们注意，练习LLM所需的技能栈或许与“经典”机器学习工程师的技能栈有很大不同。

机器学习系统的基础设施，图来自论文《Hidden Technical Debt in Machine Learning Systems》[14]

练习LLM是一个十分困难和需求耗费许多资源的工程问题。 现在让咱们扼要评论一些使LLM推理进程更有效和节约本钱的办法。

03 优化言语模型的推理才干

3.1 咱们是否真的需求优化？

推理（Inference）是指运用现已练习好的言语模型生成猜测（predictions）或响应（responses）的进程，一般作为API或Web服务。鉴于LLM的巨量资源耗费特性，有必要对其进行优化来完成高效的推理。

例如，GPT-3模型有1750亿个参数，相当于700GB的float32数字。激活也需求大约相同数量的内存，并且需求注意的是，咱们说的是RAM。

假如不运用任何优化技能来进行猜测（predictions），咱们将需求16个 80GB 显存的A100 GPU！

有几种盛行的技能能够协助削减内存需求和模型延迟（model latency），包含模型并行、模型量化等等。

3.2 模型并行

模型并行[15]将单个模型的核算分布到多个GPU上，可用于练习和推理流程。将模型的层（layers）或参数（parameters）分割到多个设备上能够显著前进全体推理速度，并且在实践中常常运用。

3.3模型量化

模型量化[16]触及削减模型数值（如权重）的精度。经过将浮点数转换为较低精度的整数，模型量化能够在不实质性丢失模型性能的情况下完成显著的内存节约和更快的核算速度。你是不是会有一个主意：运用float16浮点数代替float32，这样将内存量削减一半。事实证明，乃至能够将模型权重转换为int8也几乎不会丢失精度。

3.4 其他技能

优化LLM的办法相关研讨一直是一个活泼的研讨范畴，其他技能包含：

常识蒸馏[17]- 练习一个较小的学生模型（student model）来仿照一个较大教师模型（teacher model）的行为；
参数剪枝[18]- 从模型中删除冗余或不重要的参数，以减小模型的巨细和核算资源要求；
运用像ORT（ONNX Runtime） [19]这样的框架来经过算子交融（operator fusion）和常数折叠（constant folding）等技能来优化核算图（calculation graphs）。

总的来说，优化大型言语模型的推理是LLM布置的一个重要方面。经过运用各种优化技能，开发人员能够保证LLM不只功能强壮和精确，并且性价比高和具备可扩展性。

04 为什么 OpenAI 要敞开ChatGPT给大众运用呢？

考虑到大言语模型练习和推理的高本钱，人们或许会发生这样的疑问。尽管咱们无法确认OpenAI的确切动机，但咱们能够剖析这一决议背面的优点和潜在战略原因。

首先，OpenAI 将现在最先进的LLM给咱们运用，获得了极高的知名度。经过展现大型言语模型的实践运用作用，该公司招引了投资者、客户和整个技能范畴的重视。

其次，OpenAI的任务就是围绕着人工智能的创造和开展。经过敞开ChatGPT给大众拜访，该公司能够被以为更挨近完成其任务并为社会变革做好准备。敞开如此强壮的AI东西能够鼓舞立异，推动人工智能研讨范畴持续向前开展。这种前进能够导致更高效的模型、更多元的运用程序和各种新处理方案的呈现。不过，ChatGPT和GPT-4的架构都没有揭露，但这是另一个需求评论的话题。

尽管与练习和保护大型言语模型相关的本钱无疑是巨大的，敞开拜访ChatGPT不只增加了他们的知名度，证明了他们在人工智能范畴的领导地位，还允许他们收集更多数据来练习更强壮的模型。这种战略使他们能够持续推进他们的任务，并在某种程度上为人工智能和LLM技能的开展做出了杰出的奉献。

询问ChatGPT，为什么OpenAI要免费敞开ChatGPT的运用权限

05 定论

正如本文所说的，练习大型言语模型的本钱遭到各种要素的影响，不只包含昂贵的核算资源，还需求学习大数据管理和模型开发架构等范畴的专业常识。

如今的LLM遍及具有数十亿个参数，练习时用到数万亿个token，练习本钱高达数百万美元。

期望现在您现已了解练习和推理大型言语模型的本钱，以及它们的约束和圈套。

自然言语处理范畴现已从持续了数年的ImageNet年代 [20] 转变到生成模型的年代了。广泛运用和运用生成言语模型（generative language models）有期望彻底改变各行各业和咱们日子的方方面面。尽管很难精确猜测这些改变，但咱们能够必定，LLM必定将对国际发生一定影响。

就我个人而言，我更喜爱练习 “更聪明”的模型，而不只仅是 “更大”的模型。经过探究更优雅的办法来开发和布置LLM，能够扩展人工智能和NLP的鸿沟，为更具有立异性的处理方案和该范畴的光亮未来打开大门。

END

参考资料

1.ai.facebook.com/blog/large-…

2.huggingface.co/course/chap…

3.en.wikipedia.org/wiki/GPT-3

4.bigscience.huggingface.co/blog/bloom

5.www.deepmind.com/blog/langua…

6.arxiv.org/abs/2203.15…

7.ai.facebook.com/blog/large-…

8.twitter.com/gdb/status/…

9.www.reuters.com/technology/…

10.huggingface.co/course/chap…

11.paperswithcode.com/task/text-c…

12.paperswithcode.com/task/named-…

13.lambdalabs.com/blog/demyst…

14.proceedings.neurips.cc/paper_files…

15.colossalai.org/docs/concep…

16.huggingface.co/docs/optimu…

17.neptune.ai/blog/knowle…

18.analyticsindiamag.com/a-beginners…

19.onnxruntime.ai/

20.thegradient.pub/nlp-imagene…

本文经原作者授权，由Baihai IDP编译。如需转载译文，请联络获取授权。

原文链接：

towardsdatascience.com/behind-the-…

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

“烧钱”的大模型：初探成本拆解与推理优化方法