译者按: 最近一段时间,ChatGPT 作为一个现象级使用迅速蹿红,也带动了对其背面的大言语模型 (LLM) 的讨论,这些讨论乃至出了 AI 技能圈,颇有些到了街谈巷议的程度。在 AI 技能圈,关于 LLM 和小模型的讨论在此之前已经持续了不短的时间,处于不同生态方位和产业环节的人都有表达自己的观点,其间不少是有抵触的。

大模型的研讨者和大公司出于不同的动机站位 LLM,研讨者出于对 LLM 的突现才能 (emergent ability) 的猎奇和对 LLM 对 NLP 范畴才能边界的拓展、而大公司或许更多出自于商业利益考量;而社区和中小公司犹犹豫豫在小模型的站位上徘徊,一方面是由于对 LLM 终究练习、推理和数据本钱的望而生畏,一方面也是对大模型或许加强大公司数据霸权的隐隐担忧。但讨论,尤其是公开通明的讨论,总是功德,让咱们能够听到不同的声音,才有或许终究收敛至更合理的计划。

咱们选译的这篇文章来自于 2021 年 10 月的 Hugging Face 博客,作者在那个时间点站位的是小模型,一年多今后的 2023 年作者的观点有没有改变咱们不得而知,但开卷有益,了解作者当时考虑的那些点,把那些合理的点纳入自己的考虑体系,并结合新的进展终究作出自己的判别或许才是终究意图。

不久前,微柔和 Nvidia 推出 了 Megatron-Turing NLG 530B,一种根据 Transformer 的模型,被誉为是 “世界上最大且最强的生成言语模型”。

毫无疑问,此项作用对于机器学习工程来讲是一场令人形象深入的才能展示,标明咱们的工程才能已经能够练习如此巨大的模型。但是,咱们应该为这种超级模型的趋势感到振奋吗?我个人倾向于否定的答复。我将在经过本文阐述我的理由。

大语言模型: 新的摩尔定律?

这是你的深度学习大脑

研讨人员估计,人脑平均包含 860 亿个神经元和 100 万亿个突触。能够必定的是,这里面并非所有的神经元和突触都用于言语。风趣的是,GPT-4 预计 有大约 100 万亿个参数…… 尽管这个类比很粗略,但莫非咱们不应该怀疑一下构建与人脑巨细适当的言语模型长期来讲是否是最佳计划?

当然,咱们的大脑是一个了不起的器官,它经过数百万年的进化而产生,而深度学习模型仅有几十年的历史。不过,咱们的直觉告诉咱们: 有些东西无法计算 (这是个双关语,:)) 。

深度学习,深度销金窟?

如你所料,在庞大的文本数据集上练习一个 5300 亿参数的模型需求适当多的基础设施。事实上,Microsoft 和 Nvidia 运用了数百台 DGX A100 GPU 服务器,每台 19 万 9 千美元。假如再把网络设备、保管本钱等因素考虑进去的话,任何想要重现该试验的安排或个人都有必要花费近 1 亿美元。来根薯条压压惊?

说真的,有哪些安排有那种值得花费 1 亿美元来构建深度学习基础设施的业务?再少点,又有哪些安排有那种能够值得花费 1000 万美元基础设施的业务?很少。已然很少,那么请问,这些模型为谁而生呢?

GPU 集群的热

尽管练习大模型需求出色的工程才能,但在 GPU 上练习深度学习模型本身却是一种蛮力技能。依据规格表,每台 DGX 服务器可消耗高达 6.5 千瓦的功率。同时,数据中心 (或服务器机柜) 至少需求相同多的冷却才能。除非你是史塔克宗族的人 (Starks) ,需求在冬季让临冬城 (Winterfell) 保持温暖,不然你有必要处理散热问题。

此外,跟着大众对气候和社会责任问题意识的增强,还需求考虑碳脚印问题。依据马萨诸塞大学 2019 年的一项 研讨,“在 GPU 上练习一次 BERT 产生的碳脚印大致与一次跨美飞行适当”。

BERT-Large 有 3.4 亿个参数。咱们能够经过此推断 Megatron-Turing 的碳脚印大致如何……知道我的人都知道,我并不是一个热血环保主义者。尽管如此,这些数字也不容忽视。

所以呢?

我对 Megatron-Turing NLG 530B 和接下来或许会呈现的模型巨兽感到振奋吗?不。我以为值得添加本钱、杂乱性以及碳脚印去换取 (相对较小的) 测试基准上的改进吗?不。我以为构建和推广这些庞大的模型能协助安排理解和使用机器学习吗?不。

我想知道这一切有什么意义。为了科学而科学?好的老营销战略?技能至上?或许每个都有一点。假如是这些意义的话,我就不奉陪了。

相反,我更专注于实用且可操作的技能,咱们都能够运用这些技能来构建高质量的机器学习解决计划。

运用预练习模型

在绝大多数情况下,你不需求自定义模型架构。或许你会 想要 自己定制一个模型架构 (这是另一回事),但请注意此处猛兽出没,仅限资深玩家!

一个好的起点是寻找已经针对你要解决的使命预练习过的 模型 (例如,英文文本摘要) 。

然后,你应该快速尝试一些模型,用它们来猜测你自己的数据。假如目标作用不错,那么打完收工!假如还需求更高一点的准确率,你应该考虑对模型进行微调 (稍后会具体介绍) 。

运用较小的模型

在评价模型时,你应该从那些精度满足要求的模型中挑选尺度最小的那个。它猜测得更快,并且需求更少的硬件资源来进行练习和推理。节约需求从一开始就做起。

这其实也不算什么新招。计算机视觉从业者会记得 SqueezeNet 2017 年问世时,与 AlexNet 相比,模型尺度减少了 50 倍,而准确率却与 AlexNet 适当乃至更高。多聪明!

自然言语处理社区也在致力于运用搬迁学习技能缩减模型尺度,如运用常识蒸馏技能。 DistilBERT 或许是其间最广为人知的作业。与原始 BERT 模型相比,它保留了 97% 的言语理解才能,同时尺度缩小了 40%,速度提高了 60%。你能够 Hugging Face 尝试一下 DistilBERT。相同的办法也已经使用于其他模型,例如 Facebook 的 BART,你能够在 Hugging Face 尝试 DistilBART。

Big Science 项意图最新模型也令人形象深入。下面这张来自于 论文 的图标明,他们的 T0 模型在许多使命上都优于 GPT-3,同时尺度小 16 倍。你能够 Hugging Face 尝试 T0。

大语言模型: 新的摩尔定律?

咱们需求更多的此类研讨!

微调模型

假如你需求特化一个模型,你不应该从头开始练习它。相反,你应该对其进行微调,也就是说,仅针对你自己的数据练习几个回合。假如你缺少数据,或许这些 数据集 中的某个能够协助你入门。

猜对了,这是进行搬迁学习的另一种方式,它会协助你节约一切!

  • 搜集、存储、整理和标注的数据更少,
  • 更快的试验和迭代,
  • 生产过程所需的资源更少。

换句话说: 节约时间,节约金钱,节约硬件资源,解救世界!

假如你需求教程,Hugging Face 课程 能够协助你当即入门。

运用云基础设施

不管你是否喜欢它们,事实是云公司懂得如何构建高效的基础设施。可持续性研讨标明,根据云的基础设施比其他替代计划更节能减排: 请参阅 AWS、Azure 和 Google。 Earth.org 宣称 尽管云基础设施并不完美,“[它] 比替代计划更节能,并促进了环境友好的服务及经济增长。”

在易用性、灵活性和随用随付方面,云必定有很多优势。它也比你想象的更环保。假如你的 GPU 不够用,为什么不尝试在 AWS 的机器学习保管服务 Amazon SageMaker 上微调你的 Hugging Face 模型?咱们为你准备了 大量示例。

优化你的模型

从编译器到虚拟机,软件工程师长期以来一直在运用能够针对任何运转硬件主动优化代码的工具。

但是,机器学习社区仍在这个课题上苦苦挣扎,这是有充分理由的。优化模型的尺度和速度是一项极其杂乱的使命,其间涉及以下技能:

  • 专用硬件加快: 如练习加快硬件 (Graphcore、Habana) 、推理加快硬件 (Google TPU,AWS Inferentia)。
  • 剪枝: 删去对猜测结果影响很小或没有影响的模型参数。
  • 交融: 兼并模型层 (例如,卷积和激活) 。
  • 量化: 以较小的位深存储模型参数 (例如,运用 8 位而不是 32 位)

幸运的是,主动化工具开始呈现,例如 Optimum 开源库和 Infinity,Infinity 是一个最低能以 1 毫秒的延迟提供 Transformers 推理才能的容器化解决计划。

定论

在曩昔的几年里,大言语模型的尺度平均每年增长 10 倍。这开始看起来像另一个摩尔定律。

这条路似曾相识,咱们应该知道这条路迟早会遇到收益递减、本钱添加、杂乱性等问题以及新的风险。指数的结局往往不是会很好。还记得 Meltdown and Spectre 吗?咱们想知道人工智能的 Meltdown and Spectre 会是什么吗?


英文原文: hf.co/blog/large-…

原作者: Julien Simon

译者: Matrix Yao (姚伟峰),英特尔深度学习工程师,作业方向为 transformer-family 模型在各模态数据上的使用及大规模模型的练习推理。

审校、排版: zhongdongy (阿东)