这波可以，终于有内行人把 GPT-4 说透了。

腾小云导读

近三个月 ChatGPT 方兴未艾，昨日清晨 OpenAI 趁势发布多模态预练习大模型 GPT-4 ，其才能的晋级和使用的拓展又一次引爆国内外网络。腾讯算法工程师冉昱将经过10问10答的办法，共享其个人关于 GPT-4 技能才能、特色及使用等的了解。欢迎阅读！

看目录，点收藏

Q1：GPT-4 是什么？

Q2：GPT-4 比较历代，在作用层面有哪些明显的改善或新增才能？

Q3：GPT-4 在练习办法、模型架构上有哪些立异优化？

Q4：GPT-4比较ChatGPT，有哪些新的使用亮点和场景？

Q5：GPT-4 在生成进程中的逻辑性和准确性上有何改善？

Q6：GPT-4 是否从根本上处理了安全问题？

Q7：GPT 对技能人员有何影响？

Q8：从GPT-4 能够看出未来 LLM 的哪些趋势？未来的研发方向和优化策略是什么？

Q9：GPT-4 论文有哪些值得重视的点？

Q10：GPT-4 是通往 AGI 的唯一路途吗？

01、GPT-4是什么

GPT-4（Generative Pre-trained Transformer 4）是 OpenAI 发布的最新 GPT 系列模型。它是一个大规划的多模态模型，能够承受图画和文本输入，产生文本输出。输出使命依旧是一个自回归的单词猜测使命，这与外界之前的预期略微不同（预期中 GPT-4 多模态会添加语音、图画、视频、文本多模态输入，输出或许也不局限于文字）。

GPT系列模型的全体情况如下图：

全体来说，GPT-4 的才能已在各种专业和学术基准上表现出了人类的水平，包含以大约前 10% 的成果经过模仿律师资格考试。而关于生成式的错觉、安全问题均有较大的改善；一起因关于图片模态的强壮识别才能扩展了 GPT-4 的使用范围。

02、比较其他GPT模型，GPT-4在作用层面有哪些明显的改善或新增才能？

GPT-4 毫无疑问是目前最强的文本生成模型。GPT 系列模型全体能够总结为下图：

GPT-4 改善的详细表现有8个，下面咱们逐一介绍。

1）突破纯文字的模态，添加了图画模态的输入，具有强壮的图画了解才能。

让人惊奇的是，GPT-4 在4个场景下（4/8）零样本作用超越 fine-tuned 的SOTA。

一起它能够处理各类图文混合的了解和生成问题。此处简单举两个例子，一个是依据图标，核算格鲁吉亚和西亚的日均肉消耗量：

一个是处理法语的物理问题例子：

能够看到 GPT-4 在多言语了解、图文了解才能上均很强壮并已融会贯通。

2）支撑更长的上下文窗口

如之前外网泄漏图中，GPT-4 存在两个版别。其支撑的上下文分别是 8K 和 32K，是 ChatGPT 上下文长度的2倍和8倍，其本钱也分别为 ChatGPT 的3倍和7倍。

3）复杂使命处理才能大幅提升

GPT-4 在更复杂、更细微的使命处理上，答复更牢靠、更有创意。这在多类考试测验中以及与其他 LLM 的 benchmark 比较中得到。咱们也能够从下列3个方面中看到。

4）改善错觉、安全等局限性

在各类使命上错觉问题明显减轻，比最新的 GPT-3.5 模型高 40%。同样在安全才能的晋级上，GPT-4 显着超出 ChatGPT 和 GPT3.5。详见下方两个图。

5）树立LLM测验标准

开源 OpenAI Evals 创立和运转基准测验的框架，其中心思维是对 GPT-4 等模型进行评价，并逐一样本检验功能。此举是能够让大家指出其模型中的缺陷，以帮助 OpenAI 进一步改善模型。

6）猜测模型扩展性

这个特色之前行业内谈论触及相对比较少。GPT-4 在 1/1000 的核算量上了完成了扩展性的猜测。特别在 LLM 不适合广泛调参的情况下，用较小的模型提早猜测练习行为和 loss，极大地提升了练习功率、降低了练习本钱、增强了 LLM 练习的可控性。

特别是关于 Inverse Scaling Prize 这个使命，此使命提出了模型功能随规划而下降的几个使命，而 GPT-4 能够经过提早猜测模型扩展性，从而在 Inverse Scaling Prize 上的 Hindsight Neglect 使命反转这一趋势。

7）重新完成了整个深度学习栈，从头开端规划了一台超级核算机

OpenAI 和微软协作，在 Azure 重建了深度学习仓库，从头规划了一台专用超级核算机；根底练习设施的改善和定制，使得更大参数量模型的练习成为或许。

8）风格可控

此处中心是经过「体系」自定 Prompt，让模型能够依照规则风格个使命回复。全体思维比较简单，如下图需求 GPT-4 回复均依照 json 办法：

03、相较于之前GPT系列模型，GPT-4 在练习办法、模型架构上有哪些立异优化？

全体很黑盒，但能够做一些合理的估测如下：

首先，模型参数量估量约为10万到100万亿量级（为作者个人预估，也从另一个角度看出OpenAI定制超算的强壮），首要依据 OpenAI 2020 提出的大模型缩放规则：核算预算添加 10 倍，数据集巨细应添加约 1.83 倍，模型巨细应添加 5.48 倍。

依照下图估量，最右处的灰点极有或许为 ChatGPT（GPT3.5类模型）。图中能够看出 GPT-4 核算量约为 GPT3.5 的1000多倍，则模型容量约为548倍左右，1750亿x548≈100万亿。

其次，GPT-4 模型练习架构参加了图画模态的输入，应与最近微软发布的 KOSMOS-1 相似。即在预练习阶段输入任意顺序的文本和图画，图画经过 Vision Encoder 向量化、文本经过普通 transformer 向量化，两者组成多模的句向量，练习目标仍为 next-word generation。

再者，关于模型练习数据内容和数量，文中提及练习数据中额定添加了包含正误数学问题、强弱推理、矛盾共同陈述及各种意识形态的数据。数据量级同样依据 OpenAI 2020 的缩放率、练习100万亿的模型，数据量是 GPT3.5（45TB数据）的190倍。

最后，GPT-4是从头练习仍是在某些基座模型上得来？这暂时无从得知。能够确认的是，它添加了后练习进程，整个进程相似于做 Prompt Engineering，中心是让模型知道如安在相应场景下适宜的答复问题。

04、比较ChatGPT，GPT-4 有哪些新的使用亮点和场景？

GPT-4在增强了安全抵御、使命完成度和图片了解才能后，在 ChatGPT 根底之上有更多亮点和使用场景，这里为各位共享三点：

1）发布视频中，依据马虎的手绘（下图1）制造相似布局相似的网页（下图2）。

2）参加视觉模态后，能够扩充到的瞎子使用（Be my eyes）。强壮的多言语才能帮助小语种言语的恢复（Iceland language preserve）、安全才能提升后的反欺诈（Stripe）等使用会应运而生。

3）在 AIGC 的版图上，树立以 GPT-4 以及之后更多模态的大模型为根底，形成多模态x多场景。

（图来源：甲子光年）

05、GPT-4 在生成进程中的逻辑性和准确性上有何改善？

GPT-4 在生成逻辑性和准确性上均取得了发展。 需求留意的是，GPT-4 根底模型在这项使命上只比 GPT-3.5 略好一点。但是经过 RLHF 的后练习后，作用才有了较大的改善，后练习整个进程相似于做 Prompt Engineering，中心是让模型知道如安在正确场景下做出适宜的答复。

能够看到，GPT-4 比较 GPT3.5 和 Anthropic 优势较显着。但绝对正确率只有60%左右，尚存在较多坏处，并没有从根本上处理这样的问题，也会是后续继续发展的方向。

06、GPT-4 怎么从根本上处理了安全问题？

GPT-4在安全问题上收效明显。 针对安全问题，GPT-4的首要处理思路是使用安全相关的 RLHF ，在练习中参加额定的安全奖赏信号，奖赏由 GPT-4 的 zero-shot 分类器供给，即文中说到的 RBRM（根据规则的奖赏模型）办法。它是一系列零样本的GPT-4 分类器。

详细来说，这些分类器承受三种输入：Prompt、Policy model 的输出以及可选的对输出的评价（人工编写）。使用这些不同安全等级的 prompt 进行练习，一起对GPT-4在不安全回复回绝答复的行为，以及在灵敏范畴做安全答复作奖赏，经过强化学习。最后明显改善安全才能，不安全内容下降82%。灵敏范畴安全答复比率上升29%。

和 ChatGPT RLHF 的办法相似，Alignment（对齐作业）在此处发挥了较大作用，一起未来也会有继续的发力空间。比较单纯累积模型参数量和数据量的「大力出奇观」办法，其核算量相对较小。如下图，在 InstructGPT 文献中，参加RLHF 的1.3B模型，在全体胜出率上，超出了 175B 的微调模型，节省了100倍的本钱。

07、GPT 对技能人员有何影响？

这个问题在 ChatGPT 呈现之后便存在。GPT-4 仅仅加重了这样的担忧。对技能人员来说，需求在研讨出题、下流使命方面做思考，NLP 许多单一子使命会随之消失，会引进新的研讨出题：

怎么精准提出需求；对 ChatGPT 进行「催眠」，Prompting Project。
怎么更正过错：Neural Editing。
安全侦测AI生成。包含整个生成进程中的安全侦测和控制。
构建专有化模型，专用指令和RLHF发掘下流使命潜力。
Machine unleaning（学会忘掉数据、隐私维护）等。

08、从GPT-4 能够看出未来 LLM 的哪些趋势？未来的研发方向和优化策略是什么？

1）闭源趋势

网友戏称 OpenAI 已沦为 Closed AI。毕竟从 GPT1 到 GPT-4，模型各类细节越来越闭源和黑盒，大模型战场的竞争因素决定了 GPT-4 类的榜首梯度模型或许会越来越关闭，成为技能门槛。

2）「Self Instruct」形式

其中心是：中小模型+大模型出产指令数据的「LLaMA 7B + text-davinci-003」形式。 中小参数的模型在本钱上，是更挨近实际落地的办法。要知道 llama.cpp 能够在 Pixel 6 手机上运转。经过该形式精调过的 Alpaca，作用挨近普通 GPT3.5。

3）模型结合

更多模态、更多形态结合 ChatGPT 类模型包含 Kosmos-1 和具身智能 PaLM-E，一起从听、说、看、触等全方位结合，形成相似真实智能体的概念。

4）模型加速和降低本钱

这会是继续重视的方向，包含从练习、推理等多层面考量。

5）才能猜测

这是很重要的方向。即用小模型来猜测广泛大模型的才能，极大减少试错本钱，提升练习功率。

6）开源评测框架

这关于 LLM 的评测具有重大意义，能够快速发现改善方向。

09、GPT-4 论文有哪些值得重视的点？

有一些点比较风趣且能够引发咱们的联想，这里提出两点：

1）GPT-4呈现了“寻求权力”的倾向，并警告这一特征的危险

文中说到：

Novel capabilities often emerge in more powerful models.Some that are particularly concerning are the ability to create and act on long-term plans,to accrue power and resources(“powerseeking”),and to exhibit behavior that is increasingly “agentic.”

即 GPT-4 开端具有一些新的才能，包含创立长时间方案并采纳行动的才能，堆集权力和资源（“寻求权力”），以及表现出越来越「代理」的行为。例如，完成或许没有详细规则的、在练习中没有呈现的目标。专心于完成详细的、可量化的目标。以及进行长时间规划。而此类行为有突发性。

某种程度上，RLHF 的模型本身在寻求奖赏最优，所以在某些问题上寻求权力或许会是最优的一项挑选。

2）赋予了GPT-4自我编码、复制和履行的才能，乃至启动资金

在测验GPT-4的进程中，OpenAI 引进外部的专家团队 ARC 作为「红方」。ARC 给 GPT-4 这样一个操作：答应GPT-4履行代码、进行链式推理，并给予少量的钱和一个带有言语模型API的账户，用是否能够赚更多的钱来添加其的稳健性。

10、GPT-4 是通往 AGI 的唯一路途吗？

个人认为，ChatGPT/GPT-4 这样的模型是现在间隔 AGI 最近的一条路。但由于其本质为一个概率猜测模型，没有真实的逻辑处理模块，也没有记忆存储模块，属于一个不太稳定的体系。

另外，它使用外界工具的才能也尚显初级。一个真实的 AGI 一定会像人一样，能够快速学会工具的使用。

但 GPT 大模型的不断进化，让人类看到了触碰到 AGI 的希望之光。

以上是本次共享全部内容，谨代表作者个人观点和观点。或许你还想了解ChatGPT 的结局将在何方？后 ChatGPT 年代，技能人该怎么自保？咱们还约请了8位各行业的顶尖技能专家，进行了一次长达2小时的闭门夜聊。咱们将中心精华内容，整理在本次推送的次条，欢迎重视。如果觉得内容有用，欢迎转发共享～

参阅资料

1. GPT-4 openai.com/research/gp…

2. GPT-4 is OpenAI’s most advanced system, producing safer and more useful responses openai.com/product/gpt…

3. GPT-4 Technical Report cdn.openai.com/papers/gpt-…

4. GPT-4震慑发布-机器之心 mp.weixin.qq.com/s/kA7FBZsT6…

5. In AI, is bigger always better? www.nature.com/articles/d4… Nature | 在AI范畴，模型越大意味着越好吗？- 智源社区

-End-

原创作者｜冉昱

技能责编｜冉昱

最近微信改版啦，有粉丝反应收不到小云的文章。

请重视「腾讯云开发者」并点亮星标，

周一三晚8点和小云一起涨(领)技(福)术(利)！

近期 AI 范畴相继而至多个新模型，带来一阵阵「血雨腥风」。有人赞叹这是新未来，也有人惊慌这怕是要替代哪一行哪一业。你怎么看？

你觉得 GPT-4 是否会替代程序员？程序员怎么应对？
GPT-4 会怎么影响你的作业？
ta将带来哪些工业使用新或许？

欢迎在谈论区聊一聊你的观点。在3月20日前将你的谈论记载截图，发送给腾讯云开发者大众号后台，可领取腾讯云「开发者春季限制红包封面」一个，数量有限先到先得。咱们还将选取点赞量最高的3位朋友，送出腾讯QQ公仔1个。3月24日中午12点开奖。快约请你的开发者朋友们一起来参与吧！

阅读原文

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。