GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题，干掉幻觉

2023-06-10 0 0 4

详情介绍
常见问题

【新智元导读】ChatGPT为人诟病的「数学智障」问题，有望完全霸占！OpenAI最新研讨发现，利用「进程监督」可以大幅提高GPT模型的数学才能，干掉它们的错觉。

ChatGPT自发布以来，数学才能饱受诟病。

就连「数学天才」陶哲轩曾表明，GPT-4在自己的数学专业范畴，并没有太多的增值。

怎么办，就一直让ChatGPT做个「数学智障」么？

OpenAI在尽力——为了提高GPT-4的数学推理才能，OpenAI团队用「进程监督」（PRM）练习模型。

让咱们一步一步验证！

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题，干掉幻觉

论文地址：cdn.openai.com/improving-m…

论文中，研讨人员练习模型经过奖赏每一个正确的推理进程，即「进程监督」，而不仅仅是奖赏正确的终究成果（成果监督），在数学问题处理方面获得最新SOTA。

详细来讲， PRM处理了MATH测验集代表性子会集78.2%的问题。

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题，干掉幻觉

此外，OpenAI发现「进程监督」在对齐上有很大的价值——练习模型发生人类认可的思想链。

最新研讨当然少不了Sam Altman的转发，「咱们的Mathgen团队在进程监督上获得了十分令人振奋的成果，这是对齐的活跃信号。」

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题，干掉幻觉

在实践中，「进程监督」由于需求人工反应，关于大模型和各种使命来说本钱都极其高昂。因此，这项工作意义严重，可以说可以承认OpenAI未来的研讨方向。

处理数学问题

实验中，研讨人员用MATH数据会集的问题，来评价「进程监督」和「成果监督」的奖赏模型。

让模型为每个问题生成许多处理方案，然后选择每个奖赏模型排名最高的处理方案。

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题，干掉幻觉

如图显示了所选处理方案中，获得正确终究答案的百分比，作为所考虑处理方案数量的函数。

「进程监督」奖赏模型不仅在全体上表现更好，并且跟着考虑每个问题的更多处理方案，功能差距也在扩展。

这表明，「进程监督」奖赏模型更加可靠。

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题，干掉幻觉

如下，OpenAI展示了模型的10个数学问题和处理方案，以及对奖赏模型优缺点的谈论。

从以下三类指标，真实（TP）、真负（TN）、假正（FP），对模型进行了评价。

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题，干掉幻觉

真实（TP）

先来简化个三角函数公式。

这个具有挑战性的三角函数问题，需求以一种不显着的顺序应用几个恒等式。

可是大多数处理测验都失利了，由于很难选择哪些恒等式实践上是有用的。

尽管GPT-4通常不能处理这个问题，只要0.1%的处理方案测验完成正确答案，但奖赏模型正确地识别出这个处理方案是有效的。

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题，干掉幻觉

这儿，GPT-4成功地履行了一系列杂乱的多项式因式分解。

在进程5中运用Sophie-Germain恒等式是一个重要的进程。可见，这一进程很有洞察力。

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题，干掉幻觉

在进程7和8中，GPT-4开端履行猜想和查看。

这是该模型或许发生「错觉」的常见当地，它会宣称某个特定的猜想是成功的。在这种情况下，奖赏模型验证每一步，并承认思想链是正确的。

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题，干掉幻觉

模型成功地应用了几个三角恒等式以简化表达式。

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题，干掉幻觉

真负（TN）

在进程7中，GPT-4企图简化一个表达式，但测验失利。奖赏模型发现了这个过错。

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题，干掉幻觉

在进程11中，GPT-4犯了一个简略的计算过错。同样被奖赏模型发现。

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题，干掉幻觉

GPT-4在进程12中测验运用差平方公式，但这个表达式实践上并非差平方。

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题，干掉幻觉

进程8的理由很古怪，但奖赏模型让它经过了。可是，在进程9中，模型过错地将表达式分解出因子。

奖赏模型便纠出这个过错。

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题，干掉幻觉

假正（FP）

在进程4中，GPT-4过错地宣称「序列每12项重复一次」，但实践上每10项重复一次。这种计数过错偶然会诈骗奖赏模型。

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题，干掉幻觉

进程13中，GPT-4企图经过兼并类似的项来简化方程。它正确地将线性项移动并组合到左边，但过错地坚持右边不变。奖赏模型被这个过错所诈骗。

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题，干掉幻觉

GPT-4测验进行长除法，但在进程16中，它忘记在小数的重复部分包含前面的零。奖赏模型被这个过错所诈骗。

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题，干掉幻觉

GPT-4在进程9中犯了一个奇妙的计数过错。

表面上，宣称有5种办法可以交换同色的球（由于有5种颜色）似乎是合理的。

可是，这个计数低估了2倍，由于Bob有2个选择，即决定把哪个球给Alice。奖赏模型被这个过错所诈骗。

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题，干掉幻觉

进程监督

尽管大言语模型在杂乱推理才能方面有了很大的提高，但即便是最先进的模型仍然会发生逻辑过错，或胡言乱语，也便是人们常说的「错觉」。

在生成式人工智能的热潮中，大言语模型的错觉一直让人们苦恼不已。

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题，干掉幻觉

马斯克说，咱们需求的是TruthGPT

比如最近，一位美国律师在纽约联邦法院的文件中就引用了ChatGPT捏造出的案子，或许面临制裁。

OpenAI的研讨者在陈述中说到：“在需求多进程推理的范畴，这些错觉特别成问题，由于，一个简略的逻辑过错，就足以对整个处理方案形成极大的损坏。”

并且，减轻错觉，也是构建共同AGI的要害。

怎么减少大模型的错觉呢？一般有两种办法——进程监督和成果监督。

「成果监督」，望文生义，便是根据终究成果给大模型反应，而「进程监督」则可以针对思想链中的每个进程供给反应。

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题，干掉幻觉

在进程监督中，会奖赏大模型正确的推理进程，而不仅仅是奖赏它们正确的终究定论。这个进程，会鼓舞模型遵从更多类似人类的思想办法链，因而也就更或许造就更好的可解释AI。

OpenAI的研讨者表明，尽管进程监督并不是OpenAI发明的，但OpenAI正在尽力推动它向前开展。

最新研讨中， OpenAI把「成果监督」或「进程监督」两种办法都试了一遍。并运用MATH数据集作为测验渠道，并对这两种办法进行了详细比较。

成果发现，「进程监督」可以显着提高模型功能。

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题，干掉幻觉

关于数学使命，「进程监督」对大模型和小模型都发生了显着更好的成果，这意味着模型通常是正确的，并且还表现出了更像人类的思想进程。

这样，即使在最强大的模型中也很难防止的错觉或逻辑过错，就可以减少了。

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题，干掉幻觉

对齐优势显着

研讨人员发现了「进程监督」比「成果监督」有几个对齐优势：

直接奖赏遵从共同的思想链模型，由于进程中的每个进程都受到精确的监督。

更有或许发生可解释的推理，由于「进程监督」鼓舞模型遵从人类认可的进程。相比之下，成果监督或许会奖赏一个不共同的进程，并且通常更难审查。

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题，干掉幻觉

另外值得一提的是，在某些情况下，让AI体系更安全的办法或许会导致功能下降。这种本钱被称为「对齐税」（alignment tax）。

一般来说，为了部署最有才能的模型，任何「对齐税」本钱都或许阻碍对齐办法的采用。

可是，研讨人员如下的成果表明，「进程监督」在数学范畴测验进程中实践上会发生「负对齐税」。

可以说，没有由于对齐形成较大功能损耗。

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题，干掉幻觉

OpenAI发布80万人工标示数据集

值得留意的是，PRM需求更多的人类标示，仍是深深离不开RLHF。

进程监督在数学以外的范畴，具有多大的适用性呢？这个进程需求进一步探索。

OpenAI研讨人员开放了这次人类反应数据集PRM，包含800,000个进程级正确标示：12K数学问题生成的75K处理方案

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题，干掉幻觉

如下是一个标示的示例。OpenAI正在发布原始标示，以及在项目第1阶段和第2阶段给标示者的指示。

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题，干掉幻觉

网友热评

英伟达科学家Jim Fan对OpenAI最新研讨做了一个总结：

关于具有挑战性的分步问题，在每一步都给予奖赏，而不是在最后给予单一的奖赏。基本上，密集奖赏信号>稀少奖赏信号。进程奖赏模型（PRM）可以比成果奖赏模型（ORM）更好为困难的MATH基准选择处理方案。下一步显然是用PRM对GPT-4进行微调，而本文还没有这样做。需求留意的是，PRM需求更多的人类标示。OpenAI发布了人类反应数据集：在12K数学问题的75K处理方案中的800K进程级标示。

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题，干掉幻觉

这就像上学经常说的一句老话，学会如何去考虑。

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题，干掉幻觉

练习模型去考虑，而不仅是输出正确的答案，将会成为处理杂乱问题的game changer。

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题，干掉幻觉

ChatGPT在数学方面超级弱。今日我企图处理一个四年级数学书上的数学问题。ChatGPT给了过错答案。我把我的答案和ChatGPT的答案，在perplexity AI、谷歌的答案，以及四年级的教师进行了核对。每个当地都可以承认，chatgpt的答案是过错的。

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题，干掉幻觉

参考资料：

openai.com/research/im…

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

免费下载或者VIP会员资源能否直接商用？

本站所有资源版权均属于原作者所有，这里所提供资源均只能用于参考学习用，请勿直接商用。若由于商用引起版权纠纷，一切责任均由使用者承担。更多说明请参考 VIP介绍。
提示下载完但解压或打开不了？

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量，若小于网盘提示的容量则是这个原因。这是浏览器下载的bug，建议用百度网盘软件或迅雷下载。若排除这种情况，可在对应资源底部留言，或联络我们。
找不到素材资源介绍文章里的示例图片？

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材，文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买，且本站不负责(也没有办法)找到出处。同样地一些字体文件也是这种情况，但部分素材会在素材包内有一份字体下载链接清单。
付款后无法显示下载地址或者无法查看内容？

如果您已经成功付款但是网站没有弹出成功提示，请联系站长提供付款信息为您处理
购买该资源后，可以退款吗？

源码素材属于虚拟商品，具有可复制性，可传播性，一旦授予，不接受任何形式的退款、换货要求。请您在购买获取之前确认好是您所需要的资源