本文作者，符尧 yao.fu@ed.ac.uk，爱丁堡大学 (University of Edinburgh) 博士生，本科毕业于北京大学，与彭昊，Tushar Khot 在艾伦人工智能研讨院 (Allen Institute for AI) 共同完结英文原稿，与剑桥大学郭志江共同翻译为中文，感谢上海交通大学何俊贤，加州大学洛杉矶分校鲁盼，达特茅斯学院刘睿博对初稿的评论与主张。感谢 Raj Ammanabrolu (Allen Institute for AI), Peter Liu (Google Brain), Brendan Dolan-Gavitt (New York University), Denny Zhou (Google Brain) 对终稿的评论和主张，他们的主张极大程度上增加了本文的完整度。英文版原文：
franxyao.github.io/blog.html

最近，OpenAI 的预练习模型 ChatGPT 给人工智能范畴的研讨人员留下了深入的形象和启发。毫无疑问，它又强又聪明，且跟它说话很好玩，还会写代码。它在多个方面的才干远远逾越了天然言语处理研讨者们的预期。

所以，咱们天然就有一个问题：ChatGPT 是怎么变得这么强的？它的各种强壮的才干到底从何而来？在这篇文章中，咱们企图剖析 ChatGPT 的突现才干（Emergent Ability），追溯这些才干的来历，期望可以给出一个全面的技能路线图，来阐明 GPT-3.5 模型系列以及相关的大型言语模型是怎么一步步进化成现在的强壮形状。

咱们期望这篇文章可以促进大型言语模型的透明度，成为开源社区共同努力复现 GPT-3.5 的路线图。

致国内的同胞们：

在世界学术界看来，ChatGPT / GPT-3.5 是一种划时代的产品，它与之前常见的言语模型 (Bert/ Bart/T5) 的区别，简直是导弹与弓箭的区别，一定要引起最高程度的重视。
在我跟世界同行的交流中，世界上的干流学术机构 (如斯坦福大学，伯克利加州大学) 和干流业界研讨院（如谷歌大脑，微软研讨院）都现已全面拥抱大模型。
在当前这个阶段，国内的技能水准、学术视野、治学理念和世界前沿的差距好像并没有削减，反而正在扩展，假如现状继续下去，极有或许呈现技能断代。
此诚危急存亡之秋。

多年今后，面对行刑队，奥雷里亚诺布恩迪亚上校将会回想起父亲带他去见识冰块的那个遥远的下午。 —— 《百年孤独》加西亚马尔克斯

2020 版初代 GPT-3 与大规划预练习

初代 GPT-3 展现了三个重要才干：

言语生成： 遵从提示词（prompt），然后生成补全提示词的语句 (completion)。这也是今日人类与言语模型最普遍的交互办法。
上下文学习 (in-context learning): 遵从给定使命的几个示例，然后为新的测验用例生成解决方案。很重要的一点是，GPT-3 尽管是个言语模型，但它的论文简直没有谈到“言语建模” (language modeling) —— 作者将他们悉数的写作精力都投入到了对上下文学习的愿景上，这才是 GPT-3 的真实要点。
世界常识 (world knowledge)： 包含现实性常识 (factual knowledge) 和常识 (commonsense)。

那么这些才干从何而来呢？

基本上，以上三种才干都来自于大规划预练习：在有 3000 亿单词的语料上预练习具有 1750 亿参数的模型（练习语料的 60%来自于 2016 – 2019 的 C4 + 22% 来自于 WebText2 + 16% 来自于 Books + 3%来自于 Wikipedia）。其间：

言语生成的才干来自于言语建模的练习方针(language modeling)。
世界常识来自 3000 亿单词的练习语料库（不然还能是哪儿呢）。
模型的 1750 亿参数是为了存储常识，Liang et al. (2022) 的文章进一步证明了这一点。他们的定论是，常识密集型使命的功能与模型巨细息息相关（crfm.stanford.edu/helm/v1.0/?…
上下文学习的才干来历及为什么上下文学习可以泛化，依然难以溯源。 直觉上，这种才干或许来自于同一个使命的数据点在练习时按顺序排列在同一个 batch 中。可是，很少有人研讨为什么言语模型预练习会促使上下文学习，以及为什么上下文学习的行为与微调 (fine-tuning) 如此不同。

令人好奇的是，初代的GPT-3 有多强。

其实比较难确定初代 GPT-3（在 OpenAI API 中被称为 davinci）到底是“强”仍是“弱”。一方面，它合理地回应了某些特定的查询，并在许多数据会集达到了还不错的功能；另一方面，它在许多使命上的体现还不如 T5 这样的小模型（拜见其原始论文）。

在今日（2022 年 12 月）ChatGPT 的规范下，很难说初代的 GPT-3 是“智能的”。Meta 开源的 OPT 模型企图复现初代 GPT-3，但它的才干与当今的规范也形成了尖利的对比。许多测验过 OPT 的人也以为与现在的 text-davinci-002 相比，该模型确实 “不咋地”。尽管如此，OPT 或许是初代 GPT-3 的一个足够好的开源的近似模型了（依据 OPT 论文和斯坦福大学的 HELM 评估）。

尽管初代的 GPT-3 或许表面上看起来很弱，但后来的实验证明，初代 GPT-3 有着十分强的潜力。这些潜力后来被代码练习、指令微调 (instruction tuning) 和依据人类反应的强化学习 (reinforcement learning with human feedback, RLHF) 解锁，最终体展现出极为强壮的突现才干。

从 2020 版 GPT-3 到 2022 版 ChatGPT

从开端的 GPT-3 开端，为了展现 OpenAI 是怎么发展到 ChatGPT 的，咱们看一下 GPT-3.5 的进化树：

2020 年 7 月，OpenAI 发布了模型索引为的 davinci 的初代 GPT-3 论文（Brown. et. al. 2020. Language Models are Few-Shot Learners），从此它就开端不断进化。

2021 年 7 月，Codex 的论文（Chen et. al. 2021. Evaluating Large Language Models Trained on Code）发布，其间初始的 Codex 是依据（或许是内部的）120 亿参数的 GPT-3 变体进行微调的。后来这个 120 亿参数的模型演变成 OpenAI API 中的 code-cushman-001。在 2022 年 3 月，OpenAI 发布了指令微调 (instruction tuning)（Ouyang et. al. 2022. Training language models to follow instructions with human feedback）的论文，其监督微调 (supervised instruction tuning) 的部分对应了 davinci-instruct-beta 和 text-davinci-001。

2022 年 4 月至 7 月，OpenAI 开端对 code-davinci-002 模型进行 Beta 测验，也称其为 Codex。然后 code-davinci-002、text-davinci-003 和 ChatGPT 都是从 code-davinci-002 进行指令微调得到的。详细信息请参阅 OpenAI 的模型索引文档（
beta.openai.com/docs/model-…

尽管 Codex 听着像是一个只管代码的模型，但 code-davinci-002 或许是最强壮的针对天然言语的 GPT-3.5 变体（优于 text-davinci-002 和 -003）。code-davinci-002 很或许在文本和代码上都经过练习，然后依据指令进行调整（将在下面解说）。

2022 年 5-6 月发布的 text-davinci-002 是一个依据 code-davinci-002 的有监督指令微调 (supervised instruction tuned) 模型。在 text-davinci-002 上面进行指令微调很或许下降了模型的上下文学习才干，可是增强了模型的零样本才干（将在下面解说）。

然后是 text-davinci-003 和 ChatGPT，它们都在2022 年 11 月发布，是运用的依据人类反应的强化学习的版别指令微调 (instruction tuning with reinforcement learning from human feedback) 模型的两种不同变体。text-davinci-003 康复了（但依然比 code-davinci-002 差）一些在 text-davinci-002 中丢掉的部分上下文学习才干（大约是由于它在微调的时分混入了言语建模）并进一步改进了零样本才干（得益于 RLHF）。另一方面，ChatGPT 好像献身了简直一切的上下文学习的才干来交换建模对话前史的才干。

总的来说，在 2020 – 2021 年期间，在 code-davinci-002 之前，OpenAI 现已投入了许多的精力经过代码练习和指令微调来增强 GPT-3。当他们完结 code-davinci-002 时，一切的才干都现已存在了。很或许后续的指令微调，不管是经过有监督的版别仍是强化学习的版别，都会做以下工作（稍后会详细阐明）：

指令微调不会为模型注入新的才干—— 一切的才干都现已存在了。指令微调的作用是解锁 / 激发这些才干。这首要是由于指令微调的数据量比预练习数据量少几个数量级（根底的才干是经过预练习注入的）。
指令微调将 GPT-3.5 的分化到不同的技能树。有些更拿手上下文学习，如 text-davinci-003，有些更拿手对话，如 ChatGPT。
指令微调经过献身功能交换与人类的对齐（alignment） 。OpenAI 的作者在他们的指令微调论文（Ouyang et. al. 2022. Training language models to follow instructions with human feedback）中称其为 “对齐税” (alignment tax)。许多论文（比方：Suzgun et. al. 2022. Challenging BIG-Bench tasks and whether chain-of-thought can solve them/Chung et. al. 2022. Scaling Instruction-Finetuned Language Models 等）都报道了 code-davinci-002 在基准测验中完成了最佳功能（但模型不一定契合人类期望）。在 code-davinci-002 上进行指令微调后，模型可以生成愈加契合人类期待的反应（或许说模型与人类对齐），例如：零样本问答、生成安全和公平的对话回复、回绝超出模型它常识规模的问题。

Code-Davinci-002 和 Text-Davinci-002 在代码上练习，在指令上微调

在 code-davinci-002 和 text-davinci-002 之前，有两个中心模型，分别是 davinci-instruct-beta 和 text-davinci-001。两者在许多方面都比上述的两个-002 模型差（例如，text-davinci-001 链式思想推理才干不强（拜见附录中的图 8 arxiv.org/pdf/2201.11… 所以咱们在本节中要点介绍 -002 型号。

3.1 杂乱推理才干的来历和泛化到新使命的才干

咱们关注 code-davinci-002 和 text-davinci-002，这两兄弟是第一版的 GPT3.5 模型，一个用于代码，另一个用于文本。它们体现出了三种重要才干与初代 GPT-3 不同的才干：

响应人类指令： 以前，GPT-3 的输出首要练习会集常见的语句。现在的模型会针对指令 / 提示词生成更合理的答案（而不是相关但无用的语句）。
泛化到没有见过的使命： 当用于调整模型的指令数量逾越一定的规划时，模型就可以主动在从没见过的新指令上也能生成有用的答复。这种才干关于上线部署至关重要，由于用户总会提新的问题，模型得答得出来才行。
代码生成和代码了解： 这个才干很显然，由于模型用代码练习过。
运用思想链 (chain-of-thought) 进行杂乱推理： 初代 GPT3 的模型思想链推理的才干很弱乃至没有。code-davinci-002 和 text-davinci-002 是两个具有足够强的思想链推理才干的模型。

（1）思想链推理之所以重要，是由于思想链或许是解锁突现才干和逾越缩放法则 (scaling laws) 的关键。请参阅上一篇博文（yaofu.notion.site/A-Closer-Lo…

这些才干从何而来？

与之前的模型相比，两个首要区别是指令微调和代码练习。具体来说：

可以响应人类指令的才干是指令微调的直接产品。
对没有见过的指令做出反应的泛化才干是在指令数量逾越一定程度之后主动呈现的，T0（Sanh. et. al. Oct 2021. Multitask Prompted Training Enables Zero-Shot Task Generalization）、Flan（Wei et. al. Sep 2021. Finetuned Language Models Are Zero-Shot Learners）和 FlanPaLM（Chung et. al. Oct 2022. Scaling Instruction-Finetuned Language Models）论文进一步证明了这一点。
运用思想链进行杂乱推理的才干很或许是代码练习的一个奇特的副产品。对此，咱们有以下的现实作为一些支持：

（1）开端的 GPT-3 没有接受过代码练习，它不能做思想链。

（2）text-davinci-001 模型，尽管经过了指令微调，但第一版思想链论文（第一个版别(arxiv.org/pdf/2201.11…) 陈述了 davinci 在 GSM8K 上的准确率 12.4 v.s. 第五个版别 (arxiv.org/pdf/2201.11…) 陈述了 code-davinci-002 准确率为 63.1）陈述说，它的它思想链推理的才干十分弱 ——所以指令微调或许不是思想链存在的原因，代码练习才是模型能做思想链推理的最或许原因。

（3）PaLM（Chowdhery et. al. Apr. 2022. PaLM: Scaling Language Modeling with Pathways）有 5% 的代码练习数据，可以做思想链。

（4）Codex 论文（Chen et. al. Jul 2021. Evaluating Large Language Models Trained on Code）中的代码数据量为 159G ，大约是初代 GPT-3 5700 亿练习数据的 28%。code-davinci-002 及其后续变体可以做思想链推理。

（5）在 HELM 测验中，Liang et al. (2022) （Liang et. al. Nov 2022. Holistic Evaluation of Language Models）对不同模型进行了大规划评估。他们发现了针对代码练习的模型具有很强的言语推理才干，包含 120 亿参数的 code-cushman-001.。

（6）咱们在 AI2 的工作（Fu et. al. Oct 2022. Complexity-based Prompting for Multi-Step Reasoning. openreview.net/forum?id=yf… 也标明，当配备杂乱的思想链时，code-davinci-002 在 GSM8K 等重要数学基准上是现在体现最好的模型

（7）直觉来说，面向进程的编程 (procedure-oriented programming) 跟人类逐渐解决使命的进程很类似，面向对象编程 (object-oriented programming) 跟人类将杂乱使命分解为多个简单使命的进程很类似

（8）以上一切观察结果都是代码与推理才干 / 思想链之间的相关性。代码和推理才干 / 思想链之间的这种相关性对研讨社区来说是一个十分风趣的问题，但现在仍未得到很好的了解。可是，依然没有确凿的依据标明代码练习便是 CoT 和杂乱推理的原因。思想链的来历依然是一个开放性的研讨问题。

此外，代码练习另一个或许的副产品是长距离依靠，正如 Peter Liu（twitter.com/peterjliu/s… 所指出：“言语中的下个词语猜想一般是十分局部的，而代码一般需求更长的依靠联络来做一些工作，比方前后括号的匹配或引证远处的函数界说”。这里我想进一步补充的是：由于面向对象编程中的类承继，代码也或许有助于模型树立编码层次结构的才干。咱们将对这一假定的查验留给未来的工作。

别的还要留意一些细节差异：

text-davinci-002 与 code-davinci-002

（1）Code-davinci-002 是根底模型，text-davinci-002 是指令微调 code-davinci-002 的产品（见 OpenAI 的文档（beta.openai.com/docs/model-… 它在以下数据上作了微调：（一）人工标示的指令和期待的输出；（二）由人工标示者选择的模型输出。

（2）当有上下文示例 (in-context example) 的时分， Code-davinci-002 更拿手上下文学习；当没有上下文示例 / 零样本的时分， text-davinci-002 在零样本使命完结方面体现更好。从这个意义上说，text-davinci-002 更契合人类的期待（由于对一个使命写上下文示例或许会比较费事）。

（3）OpenAI 不太或许成心献身了上下文学习的才干交换零样本才干 —— 上下文学习才干的下降更多是指令学习的一个副作用，OpenAI 管这叫对齐税。

001 模型（code-cushman-001 和 text-davinci-001）v.s. 002 模型（code-davinci-002 和 text-davinci-002）

（1）001 模型首要是为了做纯代码 / 纯文本使命；002 模型则深度融合了代码练习和指令微调，代码和文本都行。

（2）Code-davinci-002 或许是第一个深度融合了代码练习和指令微调的模型。依据有：code-cushman-001 可以进行推理但在纯文本上体现欠安，text-davinci-001 在纯文本上体现不错但在推理上不大行。code-davinci-002 则可以一起做到这两点。

3.2 这些才干是在预练习之后现已存在仍是在之后经过微调注入？

在这个阶段，咱们现已确定了指令微谐和代码练习的关键作用。一个重要的问题是怎么进一步分析代码练习和指令微调的影响？具体来说：

上述三种才干是否现已存在于初代的 GPT-3 中，只是经过指令和代码练习触发 / 解锁？ 或许这些才干在初代的 GPT-3 中并不存在，是经过指令和代码练习注入？

假如答案现已在初代的 GPT-3 中，那么这些才干也应该在 OPT 中。因此，要复现这些才干，或许可以直接经过指令和代码调整 OPT。可是，code-davinci-002 也或许不是依据开端的 GPT-3 davinci，而是依据比初代 GPT-3 更大的模型。假如是这种状况，或许就没办法经过调整 OPT 来复现了。研讨社区需求进一步弄清楚 OpenAI 练习了什么样的模型作为 code-davinci-002 的根底模型。

咱们有以下的假定和依据：

code-davinci-002 的根底模型或许不是初代 GPT-3 davinci 模型。以下是依据：

（1）初代的 GPT-3 在数据集 C4 2016 – 2019 上练习，而 code-davinci-002 练习集则在延长到 2021 年才结束。因此 code-davinci-002 有或许在 C4 的 2019-2021 版别上练习。

（2）初代的 GPT-3 有一个巨细为2048个词的上下文窗口。code-davinci-002 的上下文窗口则为8192。GPT 系列运用肯定方位嵌入 (absolute positional embedding)，直接对肯定方位嵌入进行外推而不经过练习是比较难的，并且会严峻损害模型的功能（参阅 Press et al., 2022（Press et. al. 2022. Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation））。假如 code-davinci-002 是依据初代 GPT-3，那 OpenAI 是怎么扩展上下文窗口的？

另一方面，不管根底模型是初代的 GPT-3 仍是后来练习的模型， 遵从指令和零样本泛化的才干都或许现已存在于根底模型中，后来才经过指令微调来解锁（而不是注入）

（1）这首要是由于 OpenAI 的论文（Ouyang et. al. 2022. Training language models to follow instructions with human feedback）陈述的指令数据量巨细只要 77K，比预练习数据少了几个数量级。

（2）其他指令微调论文进一步证明了数据集巨细对模型功能的对比，例如 Chung et al. (2022) 的工作中， Flan-PaLM 的指令微调仅为预练习核算的 0.4%。一般来说，指令数据会明显少于预练习数据。

可是，模型的杂乱推理才干或许是在预练习阶段经过代码数据注入

（1）代码数据集的规划与上述指令微调的状况不同。这里的代码数据量足够大，可以占据练习数据的重要部分（例如，PaLM 有 8% 的代码练习数据）

（2）如上所述，在 code-davinci-002 之前的模型 text-davinci-001 大约没有在代码数据上面微调过，所以它的推理 / 思想链才干是十分差的，正如第一版思想链论文中所陈述的那样，有时乃至比参数量更小的 code-cushman-001 还差。

区分代码练习和指令微调效果的最好办法或许是比较 code-cushman-001、T5 和 FlanT5

（1）由于它们具有类似的模型巨细（110 亿和 120 亿），类似的练习数据集 (C4)，它们最大的区别便是有没有在代码上练习过 / 有没有做过指令微调。

（2）现在还没有这样的比较。咱们把这个留给未来的研讨。

text-davinci-003 和 ChatGPT，依据人类反应的强化学习(Reinforcement Learning from Human Feedback, RLHF) 的威力

在当前阶段（2022 年 12 月）， text-davinci-002、text-davinci-003 和 ChatGPT之间简直没有严厉的统计上的比较，首要是由于：

text-davinci-003 和 ChatGPT 在撰写本文时才发布不到一个月。
ChatGPT 不能经过 OpenAI API 被调用，所以想要在规范基准上测验它很费事。

所以在这些模型之间的比较更多是依据研讨社区的团体经历（统计上不是很严厉）。不过，咱们相信初步的描述性比较依然可以提醒模型的机制。

咱们首先留意到以下 text-davinci-002，text-davinci-003 和 ChatGPT 之间的比较：

一切三个模型都经过指令微调。
text-davinci-002 是一个经过监督学习指令微调(supervised instruction tuning) 的模型
text-davinci-003和 ChatGPT 是依据人类反应的强化学习的指令微调(Instruction tuning with Reinforcement Learning from Human Feedback RLHF)。这是它们之间最显着的区别。

这意味着大多数新模型的行为都是 RLHF 的产品。

那么让咱们看看 RLHF 触发的才干：

翔实的回应： text-davinci-003 的生成一般比 text-davinci-002 长（help.openai.com/en/articles… ChatGPT 的回应则愈加冗长，以至于用户有必要明确要求“用一句话答复我”，才干得到愈加简练的答复。这是 RLHF 的直接产品。
公平的回应： ChatGPT 一般对涉及多个实体利益的工作（例如政治工作）给出十分平衡的答复。这也是 RLHF 的产品。
回绝不当问题： 这是内容过滤器和由 RLHF 触发的模型自身才干的结合，过滤器过滤掉一部分，然后模型再回绝一部分。
回绝其常识规模之外的问题： 例如，回绝在 2021 年 6 月之后发生的新工作（由于它没在这之后的数据上练习过）。这是 RLHF 最奇特的部分，由于它使模型可以隐式地区分哪些问题在其常识规模内，哪些问题不在其常识规模内。

有两件工作值得留意：

一切的才干都是模型本来就有的， 而不是经过 RLHF 注入的。RLHF 的作用是触发 / 解锁突现才干。这个观点首要来自于数据量巨细的比较：由于与预练习的数据量相比，RLHF 占用的核算量 / 数据量要少得多。
模型知道它不知道什么不是经过编写规则来完成的，而是经过 RLHF 解锁的。这是一个十分令人惊奇的发现，由于 RLHF 的开端方针是让模型生成复合人类期望的答复，这更多是让模型生成安全的语句，而不是让模型知道它不知道的内容。

暗地发生的工作或许是：

ChatGPT: 经过献身上下文学习的才干交换建模对话前史的才干。这是一个依据经历的观测结果，由于 ChatGPT 好像不像 text-davinci-003 那样遭到上下文演示的激烈影响。
text-davinci-003：康复了text-davinci-002 所献身的上下文学习才干（见 arxiv.org/pdf/2210.11… 的附录 D）， 进步零样本的才干（ help.openai.com/en/articles… scale.com/blog/gpt-3-… ）。依据 instructGPT 的论文，这是来自于强化学习调整阶段混入了言语建模的方针（而不是 RLHF 本身）。

总结当前阶段 GPT-3.5 的进化历程

到现在为止，咱们现已仔细检查了沿着进化树呈现的一切才干，下表总结了演化途径：

咱们可以得出定论：

言语生成才干 + 根底世界常识 + 上下文学习都是来自于预练习（davinci）
存储许多常识的才干来自 1750 亿的参数量。
遵从指令和泛化到新使命的才干来自于扩展指令学习中指令的数量（Davinci-instruct-beta)
执行杂乱推理的才干很或许来自于代码练习（code-davinci-002）
生成中立、客观的才干、安全和翔实的答案来自与人类的对齐。具体来说：

（1）假如是监督学习版，得到的模型是 text-davinci-002

（2）假如是强化学习版 (RLHF) ，得到的模型是 text-davinci-003

（3）不管是有监督仍是 RLHF ，模型在许多使命的功能都无法逾越 code-davinci-002 ，这种由于对齐而形成功能衰退的现象叫做对齐税。

对话才干也来自于 RLHF（ChatGPT），具体来说它献身了上下文学习的才干，来交换：

（1）建模对话前史

（2）增加对话信息量

（3）回绝模型常识规模之外的问题

GPT-3.5 现在不能做什么

尽管 GPT-3.5 是天然言语处理研讨中的重要一步，但它并没有完全包含许多研讨人员（包含 AI2）想象的一切理想属性。以下是 GPT-3.5 不具备的某些重要属性：

实时改写模型的信仰： 当模型表达对某事的信仰时，假如该信仰是错误的，咱们或许很难纠正它：

（1）我最近遇到的一个比方是：ChatGPT 坚持以为 3599 是一个质数，尽管它供认 3599 = 59 * 61。别的，请参阅 Reddit 上关于游得最快的海洋哺乳动物（www.reddit.com/r/ChatGPT/c… 的比方。

（2）可是，模型信仰的强度好像存在不同的层次。一个比方是即便我告诉它达斯维达（星球大战电影中的人物）赢得了 2020 年大选，模型依旧会以为美国现任总统是拜登。可是假如我将选举年份改为 2024 年，它就会以为总统是达斯维达是 2026 年的总统。

形式推理： GPT-3.5 系列不能在数学或一阶逻辑等形式严厉的体系中进行推理：

（1）在天然言语处理的文献中， “推理” 一词的界说许多时分不太明确。但假如咱们从含糊性的视点来看，例如一些问题 (a) 十分模棱两可，没有推理；(b) 有点儿逻辑在里边，但有些当地也可以含糊；(c) 十分谨慎，不能有任何歧义。那么，

（2）模型可以很好地进行 (b) 类的带含糊性的推理，比方有：

1）生成怎么做豆腐脑的办法。做豆腐脑的时分，中心许多过程含糊一点是可以接受的，比方到底是做咸的仍是做甜的。只要全体过程大致正确，做出来的豆腐脑儿就能吃。

2）数学定理的证明思路。证明思路是用言语表达的非正式的逐渐解法，其间每一步的严厉推导可以不用太具体。证明思路经常被用到数学教育：只要老师给一个大致正确的全体过程，学生就可以大约理解。然后老师把具体的证明细节作为作业安置给学生，答案略。

（3）GPT-3.5 不能进行类型 (c) 的推理（推理不能容忍歧义）。

1）一个比方是严厉的数学证明，要求中心过程中不能跳，不能含糊，不能错。

2）但这种严厉推理到底是应该让言语模型做仍是让符号体系做还有待评论。一个比方是，与其努力让 GPT 做三位数加法，不如直接调 Python。

从互联网进行检索： GPT-3.5 系列（暂时）不能直接查找互联网

（1）可是有一篇 WebGPT（
openai.com/blog/webgpt… 论文发表于 2021 年 12 月，里边就让 GPT 调用了查找引擎。所以检索的才干现已在 OpenAI 内部进行了测验。

（2）这里需求区分的一点是，GPT-3.5 的两个重要但不同的才干是常识和推理。一般来说，假如咱们可以将常识部分卸载到外部的检索体系，让言语模型只专心于推理，这就很不错了。由于：

1）模型的内部常识总是在某个时刻被堵截。模型始终需求最新的常识来答复最新的问题。

2）回想一下，咱们现已评论过 1750 亿的参数许多用于存储常识。假如咱们可以将常识卸载到模型之外，那么模型参数或许会大大削减，最终它乃至可以在手机上运行（张狂的想法，但 ChatGPT 现已足够科幻了，谁知道未来会怎样呢).

定论

在这篇博文中，咱们仔细介绍了 GPT-3.5 系列的才干规模，并追溯了它们一切突现才干的来历。初代 GPT-3 模型经过预练习获得生成才干、世界常识和 in-context learning。然后经过 instruction tuning 的模型分支获得了遵从指令和能泛化到没有见过的使命的才干。经过代码练习的分支模型则获得了代码了解的才干，作为代码练习的副产品，模型一起潜在地获得了杂乱推理的才干。

结合这两个分支，code-davinci-002 好像是具有一切强壮才干的最强 GPT-3.5 模型。接下来经过有监督的 instruction tuning 和 RLHF 经过献身模型才干交换与人类对齐，即对齐税。RLHF 使模型可以生成更翔实和公平的答案，一起回绝其常识规模之外的问题。

咱们期望这篇文章可以帮助提供一个明晰的 GPT 评估图，并引发一些关于言语模型、instruction tuning 和 code tuning 的评论。最重要的是，咱们期望这篇文章可以作为在开源社区内复现 GPT-3.5 的路线图。

“由于山就在那里。”——乔治马洛里，珠穆朗玛峰探险前驱

常见问题

这篇文章中的这些说法更像是假定 (hypothesis) 仍是定论 (conclusion)？

（1）杂乱推理的才干来自于代码练习是咱们倾向于相信的假定

（2）对没有见过的使命泛化才干来自大规划指令学习是至少 4 篇论文的定论

（3）GPT-3.5 来自于其他大型根底模型，而不是 1750 亿参数的 GPT-3 是有依据的猜想。

（4）一切这些才干都现已存在了，经过 instruction tuning，不管是有监督学习或强化学习的办法来解锁而不是注入这些才干是一个强有力的假定，强到你不敢不信。首要是由于 instruction tuning 数据量比预练习数据量少了几个数量级

（5）定论 = 许多依据支持这些说法的正确性；假定 = 有正面依据但不行有力；有依据的猜想 = 没有确凿的依据，但某些要素会指向这个方向

为什么其他模型（如 OPT 和 BLOOM）没有那么强壮？

（1）OPT 大约是由于练习进程太不安稳

（2）BLOOM 的状况则未知。假如您有更多定见，请与我联络

（作者注：转发请在文章的开头标明出处，而不是在结尾列一行小字。）

欢迎 Star、试用 OneFlow 最新版别：
github.com/Oneflow-Inc…

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

ChatGPT进化的秘密