在人类的进化史中,制造和运用东西是要害的转折点。现在,在 Google Deepmind 等最新的研讨中,大言语模型也具有了类似的才能,进化成了东西制造者。

咱们知道,大言语模型(LLM)在广泛的 NLP 使命中现已表现出杰出的才能,乃至展现出能够完结通用人工智能某些方面的杰出痕迹。此外,与人类的智能进化类似,LLM 在最近的研讨中被揭示出运用外部东西从而进步处理问题才能及效率的潜力。
需求留意的是,这些东西运用办法的适用性很大程度程度上取决于是否有合适的东西。从人类进化的里程碑能够发现,人类进化的要害转折点是人类有才能制造东西来处理出现的困难。
受到制造东西对人类重要性的启发,在本文中,Google Deepmind、普林斯顿和斯坦福大学的研讨者将这种「进化」的概念运用于 LLM 范畴,进行了初步探究。他们提出了一个闭环结构,在这个结构中LLM 作为东西制造者(LLMs As Tool Makers ,LATM),使其能够生成自己的可重新运用的东西来处理新使命

GPT-4等大模型迎来进化转折点:不只是使用,还会自己制作工具了

论文地址:arxiv.org/pdf/2305.17…
该办法包含两个要害阶段:

  • 东西制造:LLM 作为东西制造者,专门为给定的使命规划东西(作为 Python 函数完结);

  • 东西运用:另一个 LLM 作为东西运用者,它能够与东西制造者相同,运用东西来处理新的恳求。

两阶段规划答应 LATM 在每个阶段将作业分配给最合适的 LLM。一方面,需求高度才能的东西制造进程能够分配给一个功用强壮且资源密集型的模型 (例如 GPT-4)。另一方面,相对简单的运用东西进程,能够分配给轻量、经济高效的模型 (例如 GPT-3.5 Turbo)。这种办法不只增强了 LLM 处理问题的才能,并能够明显下降处理一系列使命的均匀计算本钱。

GPT-4等大模型迎来进化转折点:不只是使用,还会自己制作工具了

LATM 的闭环结构。
由于东西制造进程只需求对给定的功用履行一次,因而生成的东西能够在不同的使命实例中重复运用。这种办法为处理复杂使命开拓了可扩展、本钱高效的处理方案。例如,假定一个使命,用户要求 LLM 安排一个适合每个人的会议(例如在电子邮件对话中)。触及复杂算术推理的使命关于像 GPT-3.5 Turbo 这样的轻量级模型来说是艰巨的挑战。比较之下,更强壮的模型(例如 GPT-4)虽然推理本钱要高得多,可是能够找到正确的处理方案。
LATM 能够克服这种困难,是由于它将强壮但贵重的模型当作东西制造者,并将东西传递给东西运用者 —— 经济型模型进行运用。东西制造完结后,轻量级东西运用者能够用它来高效、高功用地处理使命。
本文的试验能够验证这种办法在复杂的推理使命上(包含几个具有挑战性的 Big-Bench 使命)的有效性。成果表明,LATM 能够抵达与资源密集型模型相当的功用,同时具有更高的本钱效益。这种新颖的 LLM 办法,仿照了人类在创立和运用东西方面的进化腾跃,为拓荒运用 LLM 生成的东西的社区供给了无限可能。
办法概览:LLM as Tool Maker (LATM)
制造新东西并重复运用
在 LATM 范式中,首要进程能够分为两个阶段:东西制造和东西运用。每个阶段都运用不同类型的大言语模型(LLM)来平衡功用和本钱效率。
关于东西制造(Tool Making) ,该阶段采用强壮但本钱更高昂的模型(例如 GPT-4)作为东西制造者。东西制造者经过特定使命的一些演示来创立通用和可复用的东西(作为 Python 函数完结)。该阶段又能够进一步分为以下三个子阶段:
首要是东西提出(Tool Proposing) 。在这一阶段,东西制造者测验生成一个 Python 函数,用以处理给定使命的演示。该进程遵从「实例编程」(PbE)范式,其间供给了几个详细的演示,并且需求模型编写产生演示行为的程序。在试验中,研讨者在该阶段运用了 3 个演示。假如提出的东西无法履行或者遇到过错,东西制造者会将过错信息附加到历史记载中并进行另一次测验。
其次是东西验证(Tool Verification) 。在这一阶段,东西制造者运用验证样本生成单元测验,然后在提出的东西中履行这些测验。研讨者在试验中运用了 3 个验证样本。假如东西未能经过任何这些测验,东西制造者会在其历史记载中记载下过错,并测验在单元测验中纠正问题(此进程只会纠正单元测验部分的函数调用,而不会纠正功用)。LLM 的自调试才能已在最近的研讨中得到有效证明,然而在 LATM pipeline 中,验证阶段的用处稍有不同。该阶段有两个要害作用:一是供给示例来演示怎么将自然言语问题转化为函数调用;二是验证东西的可靠性,使整个进程充沛自动化。
最后是东西封装(Tool Wrapping) 。假如履行或验证失利超过了预设阈值,则东西封装阶段被视为失利。相反,东西制造者准备好为东西运用者供给封装后的东西。该步骤触及封装函数代码,并演示怎么将一个使命转化为函数调用。这些演示从东西验证步骤中提取,从而将问题转化为单元测验。随后终究产品可供东西运用者运用。
完结了东西制造,接下来是东西运用(Tool Using) 了。该阶段触及一个轻量级且具有本钱效益的模型(例如 GPT-3.5 Turbo),用作东西运用者。东西运用者的角色是运用验证后的东西来处理使命的不同实例。该阶段的 prompt 是封装东西,它包含了处理使命的函数和怎么将使命查询转化为函数调用的演示。经过演示,东西运用者能够以一种上下文学习的办法来生成需求的函数调用,然后履行函数调用以处理使命。或者能够运用后处理来转化输出以匹配使命所需的格局,例如多项挑选题的选项。
总的来说,东西制造阶段包含东西提出、验证和封装,每类使命只需履行一次,然后能够将生成的东西重复用于该使命的所有实例。与单独运用强壮的模型比较,这使得 LATM 的效率和本钱效益明显添加。此外,Python 函数时一种更通用的思想链,增强了整体功效和灵活性,因而可用于处理触及算法推理才能的问题。

GPT-4等大模型迎来进化转折点:不只是使用,还会自己制作工具了

LATM 的 pipeline。
下图 3 展示了办法的详细示例,阐明东西制造者怎么经过生成东西(Python 函数)来处理 BigBench 的逻辑推导使命,以及东西运用者怎么运用东西。

GPT-4等大模型迎来进化转折点:不只是使用,还会自己制作工具了

运用 Dispatcher 处理流数据
在真实国际场景中,使命实例通常按顺序出现。为了适应这种数据流,研讨者引入了第三个 LLM 即 dispatcher,它确认是让东西运用者还是东西制造者参与每个传入的使命。dispatcher 模块与现有工作中的东西挑选功用有类似之处,然后在辨认现有东西无法处理的新使命以及让东西制造者为这些使命生成新东西方面具有独到的才能。
详细而言,dispatcher 保留了东西制造者产生的现有东西的记载。当接收到新的使命实例时,dispatcher 首要确认是否有适合手头使命的东西。假如有合适的东西,则将实例确认为新使命,并运用强壮的模型处理该实例,乃至能够调用人工标示器。随后缓存新使命的实例,直到缓存实例足够东西制造者制造新东西。详细的工作流程如下图 4 所示。

GPT-4等大模型迎来进化转折点:不只是使用,还会自己制作工具了

试验成果
本文在来自不同范畴的 6 个数据集上评价了所提出的办法,包含 Logical Deduction、Tracking Shuffled Objects、Dyck Language、Word Sorting、 Chinese Remainder Theorem 和 Scheduling Meeting。
在东西制造阶段,研讨者将温度参数设置为 0.3,以在生成进程中引入随机性,并在必要时答应重试。在这个阶段,试验运用了带有 ChatCompletion API 的 GPT-4 和 GPT-3.5 Turbo 模型进行,并不断将呼应附加进聊天记载当中,来发明交互体会。
在东西运用阶段,LLM API 调用仅进行一次,并运用标准完结 API 对 gpt -3 型模型进行融化研讨。当运用东西时,温度参数一直为设置为 0.0。在东西提出和东西验证阶段的最大重试次数设置为 3。
东西制造的有效性
据试验调查,GPT-4 作为东西制造者时,常能规划出合适的算法来处理使命。例如下表 1 中,东西制造者搜索所有排列,并挑选满足给定约束的正确排列来创立代码,处理逻辑演绎使命。在试验中,东西验证阶段首要用于演示怎么将自然言语问题转化为函数调用。在 60 次试验中,只调查到 2 例东西制造者能够在过错消息的指导下纠正其过错。

GPT-4等大模型迎来进化转折点:不只是使用,还会自己制作工具了

LATM 进步轻量级 LLM 的功用
下表 2 比较了思想链提示与 LATM 的功用。试验运用 GPT-4 作为东西制造者为这六项使命生成东西,并评价 GPT-3.5 Turbo 和 GPT-4 作为东西运用者的功用。成果表明,在该东西的协助下,像 GPT-3.5 Turbo 这样的轻量级模型能够抵达与 GPT-4 相当的功用,明显优于 CoT 提示。此外与运用 GPT-4 比较,运用 GPT-3.5 Turbo 的均匀本钱要低得多。
这突出了 LATM 在增强轻量级模型的功用方面的有效性。因而,运用 LATM 相较于安规的模型来说,能够下降本钱。

GPT-4等大模型迎来进化转折点:不只是使用,还会自己制作工具了

将 LATM 扩展为具有混合使命的流设置
将 LATM 扩展为流设置后,流设置中不同使命的实例能够实时抵达。在这种情况下,需求另一个模型调度程序,来确认实例所属的使命。试验运用 GPT-3.5 Turbo 作为调度器,并评价其才能:

  • 辨认现有东西来处理传入实例;

  • 为不知道使命的实例恳求东西制造。

成果表明,调度程序能够有效地辨认现有的东西,并为不知道使命恳求东西制造,但它不会大幅下降功用。这表明 LATM 能够滑润地扩展到具有混合使命的流设置。
融化试验
首要是东西制造言语模型所需的才能。研讨者调研了东西制造阶段所用言语模型的才能要求。一般来说,更强壮且本钱更高昂的模型越能抵达意图,这是由于该阶段中每个使命只履行一次,高准确度关于有效地将东西传递给更小的模型至关重要。
其次是东西运用言语模型所需的才能。研讨者调研了东西运用模型的才能要求,详细成果如下表 4 所示,GPT-3.5 Turbo 在所有测验的模型中完结了最佳的功用与本钱平衡。

GPT-4等大模型迎来进化转折点:不只是使用,还会自己制作工具了

最后是思想链(CoT)作为东西没有协助。除了 LATM 之外,研讨者还调研了是否能够经过重用更大模型和更小模型(类似于 LATM pipeline)的思想链来进步功用。详细成果如下表 5 所示,运用大模型的 CoT 与人类编写的 CoT 具有类似乃至更差的功用,这要比 LATM 差得多。

GPT-4等大模型迎来进化转折点:不只是使用,还会自己制作工具了