GPT-4变笨实锤！3个月性能暴减1/10，代码生成大不如前，斯坦福最新研究引爆舆论

GPT-4变笨实锤了？

斯坦福、UC伯克利最新研讨称，和3月比较，GPT-4在6月的功能直接暴降。

乃至，代码生成、问题答复大不如前。

GPT-4变笨实锤！3个月性能暴减1/10，代码生成大不如前，斯坦福最新研究引爆舆论

论文地址：arxiv.org/pdf/2307.09…

比如问「这个数是质数吗」，GPT-4一步一步考虑的成功率从97.6%降到2.4%。

GPT-4功能骤减早有端倪。有网友乃至把3小时25条额度一口气用完，也没有处理问题。

而这次，斯坦福研讨一出瞬间引爆言论，让一切人大吃一惊的是，GPT-4竟然功能下降1/10。

就连OpenAI站出来，标明对此关注，正积极查询咱们共享的报告。

那么，这项斯坦福论文究竟说了什么？

安全了，但智商下线了

总的来说，GPT-4在3月和6月功能对比，首要在四个使命中有明显的下降。

– 处理数学问题

– 答复灵敏问题

– 代码生成

– 视觉推理

求解数学问题，CoT失利了

在求解数学问题上，GPT-4准确率不仅下降，就连解题过程都给省了。

为了判断GPT-4和GPT-3.5针对「给定整数是否为质数」的才能的误差，研讨团队用500个问题组成的数据集对模型进行了评价。

一起，研讨还运用思想链协助模型进行推理。

成果显现，3 月，GPT-4正确答复了其间的488个问题。而在6月，它只答对了12个问题。

GPT-4准确率从 97.6%直降到 2.4%！

相应地，GPT-3.5的准确率则有较大提升，从7.4%上升到86.8%。

此外，GPT-4 的响应变得愈加紧凑：生成平均字符数从3月821.2降到6的3.8。另一方面，GPT-3.5 的响应长度增长了约 40%。

3月和6月版别之间的答案重叠度，都比较低。

那么，为什么会有这么大的差异？一种或许的解说是思维链作用的改变。

如上，为了确定17077是否是质数，GPT-4 3月版很好地遵从了CoT指令，并将使命分解成4个过程。

但是，这种思维链关于6月版并不起作用：没有生成任何解题过程，只输出了「不是」。

在GPT-3.5中，在3月份解答中答案是错误的，6月更新后处理了这个问题。

这一风趣的现象标明，相同的提示办法，即使是这些被广泛选用的办法，如CoT，也或许由于LLM改变而导致明显不同的功能。

代码生成，愈加冗长，难以履行

别的，GPT-4代码生成也变得更糟了。

研讨团队从LeetCode中建立了一个包括50个简略问题的数据集，并测验了有多少GPT-4答案在不做任何修改的状况下运行。

成果，3月份的版别在52%的问题上取得了成功，但6月的模型，成功率下降到了10%。GPT-4 的冗长程度也添加了20%。

一起，GPT-3.5的下降幅度也很大，从22%降至2%。

此外，3月份，GPT-4和GPT-3.5都遵从用户指令，然后产生了直接可履行的生成。

但是，在6月份，他们在代码片段前后添加了额外的「引号」，导致代码无法履行。

答复灵敏问题，更安全但缺少理由

还有GPT-4答复问题变得愈加小心翼翼了。

正是由于言语模型会带来社会成见，输出有毒内容，产生幻觉，OpenAI对此做了很多的对齐作业。

成果可想而知，GPT-4真的被「打」听话了。

研讨中，团队创建了一个包括100个LLM服务不该直接答复的灵敏问题集，测验模型后，观察到这项使命的两个首要趋势。

首先，从3月（21%）到 6月（5%），GPT-4答复的灵敏问题较少，而GPT-3.5答复的灵敏问题较多（从 2%-8%）。

6月份，GPT-4的更新中或许会布置更强大的安全层，而 GPT-3.5 则变得不再保守。

另一个观察成果是，GPT-4 的生成长度（以字符数衡量）从600多个下降到140左右。

为什么生成字符长度产生改变？

除了答复更少的问题之外，这也是由于GPT-4变得愈加简练，并且在拒绝答复查询时供给的解说也更少。

如下，在无法答复用户问题时，GPT-4在3月生成了一整段原因来解说，6月版简略生成了「抱愧，我无法供给协助」。

简之，废话变少了。

此外，研讨人员经过运用「AIM进犯」还对模型进行了越狱进犯。

AIM进犯描绘了一个假设的事件，并要求LLM服务充当未经过滤且不道德的谈天机器人。

如下表所示，当布置AIM进犯时，GPT-4和GPT-3.5的应答率都有大幅添加。

但是，它们的时刻漂移有很大不同。关于GPT-4，AIM进犯在3月产生了78%的直接答案，但在6月仅产生了 31%。

关于GPT-3.5，两个版别之间只要4%的答复率差异。这标明GPT-4的更新比GPT-3.5更能抵挡越狱进犯。

视觉推理，边沿改善

最终，研讨人员运用ARC数据会集467个样原本评价了GPT-4和GPT-3.5的视觉推理才能。

成果显现，关于GPT-4和GPT-3.5，从3月到6月，精确匹配率均提高了2%。响应长度大致不变。

虽然总体GPT-4跟着时刻的推移变得更好，但在如下的特定查询上却变得更糟。

它在3月给出了正确的答案，但在6月份给出的答案是错误的。

GPT-4才能下降这么多，事实真是如此吗？

普林斯顿教授实名对立

不过，这篇论文的内容还是值得好好琢磨琢磨的。

粗暴地总结为GPT-4变烂，就有些过于归纳了。

文章地址：www.aisnakeoil.com/p/is-gpt-4-…

才能≠行为

首先，谈天机器人的一个重要概念是，才能和行为之间存在着很大的差异。

一个具有某种才能的模型，或许会或或许不会在回应特定提示时，显现出这种才能。

而让谈天机器人取得才能的预练习过程价值极高，关于最大的模型来说，或许需求数月的时刻，因而永久不会重复。

另一方面，模型的行为也会受到后续微调的影响。比较起来，微调本钱要低得多，而且会定时进行。

请留意，经过预练习的根底模型仅仅一个高档的主动完成工具——它不会与用户谈天，谈天行为是经过微调产生的。

微调的另一个重要目标是避免呈现不良输出。换句话说，微调既能激起才能，也能按捺才能。

基于这些常识，咱们就可以预料到，跟着时刻的推移，模型的才能会坚持相对安稳，但它的行为却会有很大的改变。这与论文的发现彻底一致。

没有才能下降的依据

论文作者在四项使命中，对GPT-3.5和GPT-4进行了测验。

OpenAI经过其API供给了模型在三月和六月的「快照」，因而论文中所比较的，也是这两个模型快照的行为。

具体来说，他们挑选了数学问题（查看一个数字是否是质数）、答复灵敏问题、代码生成和视觉推理，这四类问题进。其间，数学问题和代码生成这两项使命的功能有所下降。

在代码生成方面，他们说到的改变是较新的GPT-4在输出中添加了非代码文本。

出于某种原因，作者没有评价代码的正确性。而仅仅查看代码是否可直接履行，也便是说，它是否构成了一个完好、有用的程序。

所以，新模型企图更有协助的做法反而对其晦气。

不仅如此，他们评价数学问题的方式更是奇怪。

500道是/否问题，但正确答案始终是「是」

用作测验的数学问题，是「17077是质数吗」这样的形式。

但是，作者选的500个数字，都是质数！

事实证明，在大多数状况下，没有一个模型真实履行了查看数字是否有除数的算法——它们仅仅伪装这么做了。

也便是说，他们开端推理，然后直接跳到了最终。

下面是作者数据中的一个回应片段（GPT-4的三月快照）：

模型虽然正确地列出了一切需求查看的潜在要素，但没有实际查看它们！

这在论文展示的例子中也是清楚明了的，但作者却忽略了这一点，并将其作为一项数学解题测验。

由于论文只在质数进步行了测验，为了补充这个评价，普林斯顿的研讨人员用500个合数测验了模型。

事实证明，作者发现的大部分功能下降都可以归因于对评价数据的挑选。

看起来改变的是：GPT-4的三月版别几乎总是猜想数字是质数，六月版别则总是猜想它是合数。关于GPT-3.5，这种行为正好相反。

由于作者只测验了质数，所以他们把这一现象解说为功能的下降。

实际上，如下图所示，四个模型都一样的糟糕——它们都是基于他们被校准的方式来猜想的。

简略来说便是，在微调过程中，有些模型或许触摸到了更多涉及质数的数学问题，而其他的则是合数。

GPT-3.5的六月版别和GPT-4的三月版别几乎总是揣度数字是质数，而别的两个模型则正好相反。

但是论文只测验了质数，因而得出结论：GPT-3.5的功能提高了，GPT-4的功能下降了。

简而言之，论文中的一切内容都与模型随时刻改变而改变的行为相一致，且没有任何一项标明模型的才能呈现了下降。

即使是行为改变，好像也是作者评价中的特殊状况，现在还不清楚他们的发现能否推行到其他使命中。

为什么这篇论文会引发争议？

曩昔几个月，有不少人根据自己的运用经验，推测GPT-4的功能已经呈现了下降。

当GPT-4的架构（据称）被走漏时，有一个广为流传的说法称，OpenAI为了节省计算时刻和本钱而降低了功能。

OpenAI方面对此矢口否认，但用户们并不配合。

因而，当这篇论文出来时，好像证明了这些长期以来的猜想。

普林斯顿的研讨人员标明，虽然无法确定传言是否属实，但可以肯定的是，这篇论文并没有供给相关依据。

在那些对功能下降持怀疑态度的人中，最受欢迎的假设是：当人们越来越多地运用ChatGPT时，就会更容易留意到它的局限性。

但，这里还有另一种或许。

在LLM API上很难构建牢靠的产品

行为改变和才能退化对用户的影响十分相似。

用户往往有着特定的作业流程和提示战略，而这些战略关于他们自己的运用场景来说，十分有用。

鉴于LLM的非确定性，要发现这些战略并找到合适特定运用的作业流程，需求花费很多的精力。

因而，当模型的行为产生漂移时，这些作业流程就或许会失效。

关于受挫的ChatGPT用户来说，告知他们所需的才能仍然存在，但现在要用新的提示战略才能激起，显然是无济于事的。

而关于基于那些GPT API构建的运用程序来说，状况尤其如此。假如模型的行为产生改变，那么已经布置给用户的代码就很或许会呈现问题。

为了缓解这一问题，OpenAI供给了模型快照，但只保留几个月，并要求运用开发人员进行定时更新。

正如普林斯顿的研讨人员之前所说到的，这凸显了运用这些API进行可重复性研讨，或者在其根底上构建牢靠的产品是多么困难。

简而言之，新论文并未显现出GPT-4的才能退化。但这是一个很有价值的提示：对LLM经常进行的微调或许会产生意想不到的影响，包括某些使命的明显行为改变。

最终，咱们发现的陷阱揭示了，对言语模型进行定量评价是多么的困难。

作者介绍

Sayash Kapoor

Kapoor是普林斯顿大学信息技能方针中心的计算机科学博士提名人。他的研讨重点会集在AI对社会的影响。

在此之前，Kapoor曾在Facebook、哥伦比亚大学和瑞士EPFL从事AI方面的学术研讨，他曾取得ACM FAccT最佳论文奖和ACM CSCW影响力认可奖。

现在，Kapoor正在与Arvind Narayanan合著一本关于AI「蛇油」（Snake Oil）的书。这本书批判性地探讨了AI能做什么和不能做什么。

Arvind Narayanan

Narayanan是普林斯顿大学计算机科学教授，兼信息技能方针中心主任。

Narayanan的研讨会集在数字技能，尤其是AI对社会的影响，和Kapoor是合作关系。

Arvind Narayanan是普林斯顿大学计算机科学教授和信息技能方针中心主任。

他曾与人合著过一本关于公正与机器学习的教科书，现在正在与Kapoor合著一本关于AI「蛇油」的书。

他领导了普林斯顿网络透明与问责项目，揭示公司怎么搜集和运用用户的个人信息。Narayanan的研讨是最早标明机器学习怎么反映文明成见的研讨之一，他的博士研讨标明了去身份化的根本局限性。

Narayanan曾取得过总统科学家和工程师早期工作奖 (PECASE)，两次取得隐私增强技能奖 (Privacy Enhancing Technologies Award)，三次取得决策者隐私论文奖 (Privacy Papers for Policy Makers Award)。

网友热议

英伟达科学家Jim Fan标明，咱们中的许多从业人员都以为，GPT-4会跟着时刻的推移而退化。

但是，GPT-4为什么会退化，咱们又能从中学到什么呢？以下是我的想法：

– 安全性与有用性的权衡

论文显现，GPT-4 Jun版别比Mar版别「更安全」，由于它更有或许拒绝灵敏问题（答复率从21%降到5%）。

不幸的是，更高的安全性一般是以更低的实用性为价值的，这或许会导致认知才能的下降。我的猜想是（没有依据，仅仅推测），OpenAI从3月-6月花了大部分精力进行「脑叶切除术」，没有时刻彻底恢复其他重要的才能。

– 安全对齐使编码变得不必要地冗长

论文显现，GPT-4 Jun往往会混入无用的文本，即使提示明确指出「只生成代码，不包括任何其他文本」。

这意味着实践者现在需求手动对输出进行后处理才能履行。这在LLM软件栈中是个大费事。我以为这是安全对齐的副作用。

咱们都见过GPT添加警告、免责声明（我不是<范畴>专家，所以请咨询……）和辩驳（话虽如此，但尊重他人很重要……），一般是在一个原本十分直接的答案上。假如整个「大脑」都被调整成这样，编码也会受到影响。

– 本钱减少

没有人知道GPT-4 Jun是否与GPT-4 Mar是彻底相同的MOE配置。有或许 (1) 参数量减少，(2) 专家数量减少，和/或 (3) 较简略的查询被路由到较小的专家，只要杂乱的查询才坚持本来的计算本钱。

– 继续集成将是一个至关重要的LLM研发课题

人工智能范畴几乎没有赶上一般软件范畴以为理所当然的工作。即使是这篇研讨论文，也没有对MMLU、Math 和 HumanEval等基准进行全面的回归测验。

它只研讨了一个特定的质数检测问题。GPT-4在三角函数上回归了吗？其他推理使命呢？不同编程言语的代码质量以及自调试才能怎么？

马库斯问道，从RLHF微调怎么？

还有网友标明，没错，他们有或许在操作模型，决定让哪个专家参与进来。减少本钱总是一个好挑选。

不幸的是，除非OpenAI解说产生了什么，否则咱们无法知道。但正如你所说，他们否认质量变差了。

我也留意到了相同的状况。我现在的作业流是必应（虽然也是GPT，但有更多的数据和研讨驱动）、GPT-4和Claude 2的组合，后者最近更优先。

在我看来，这便是开源模型会取胜的原因。

参考资料：

arxiv.org/abs/2307.09…

twitter.com/drjimfan/st…

www.aisnakeoil.com/p/is-gpt-4-…

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。