Game Changer 还是标题党?

跟着大型语言模型(LLM)的发展,人工智能正处于革新的爆发期。众所周知,LLM 可用于商业、科学和金融等运用,因而越来越多的公司(OpenAI、AI21、CoHere 等)都在供给 LLM 作为根底服务。尽管像 GPT-4 这样的 LLM 在问答等使命中取得了前所未有的功能,但由于其高吞吐量的特质,使得它们在运用中十分贵重。

例如,ChatGPT 每天的运营本钱超越 70 万美元,而运用 GPT-4 来支持客户服务或许会让一个小企业每月花费超越 2.1 万美元。除了金钱本钱外,运用最大的 LLM 还会带来巨大的环境和动力影响。

现在许多公司经过 API 供给 LLM 服务,它们收费各异。运用 LLM API 的本钱通常包括三个组成部分:1)prompt 本钱(与 prompt 的长度成份额),2)生本钱钱(与生成的长度成份额),以及 3)有时还会有关于每个查询的固定本钱。

下表 1 比较了 12 个不同商业 LLM 的本钱,这些 LLM 来自主流供货商,包括 OpenAI、AI21、CoHere 和 Textsynth。它们的本钱相差高达 2 个数量级:例如,关于 1000 万个 token,OpenAI 的 GPT-4 的 prompt 本钱为 30 美元,而 Textsynth 托管的 GPT-J 仅为 0.2 美元。

GPT-4 API平替?性能媲美同时成本降低98%,斯坦福提出FrugalGPT,研究却惹争议

本钱和精确性之间的平衡是决策制定的要害因素,尤其是在选用新技术时。怎么有用和高效地运用 LLM 是从业者面对的要害应战:假如使命相对简略,那么聚合来自 GPT-J (其规划比 GPT-3 小 30 倍)的多个呼应能够完成与 GPT-3 类似的功能,从而完本钱钱和环境上的权衡。但是,在较为困难使命上,GPT-J 的功能或许会大大下降。因而,怎么经济高效地运用 LLM 需求选用新的办法。

最近的一项研讨尝试提出解决这一本钱问题的办法,研讨者经过试验表明,FrugalGPT 能够与最佳个体 LLM(例如 GPT-4) 的功能相媲美,本钱下降高达 98%,或者在相同本钱下将最佳个体 LLM 的精确性进步 4%。

GPT-4 API平替?性能媲美同时成本降低98%,斯坦福提出FrugalGPT,研究却惹争议

  • 论文地址:arxiv.org/pdf/2305.05…

来自斯坦福大学的研讨者回顾了运用 LLM API(例如 GPT-4,ChatGPT,J1-Jumbo)所需的本钱,并发现这些模型具有不同的定价,费用或许相差两个数量级,特别是在大量查询和文本上运用 LLM 或许更贵重。根据这一点,该研讨概述并讨论了用户能够运用的三种战略来下降运用 LLM 的推理本钱:1)prompt 习惯,2)LLM 近似和 3)LLM 级联。此外,该研讨提出了级联 LLM 一个简略而灵活的实例 FrugalGPT,它学习在不同查询中运用哪些 LLM 组合以减少本钱并进步精确性。

这项研讨提出的思想和发现为可持续高效地运用 LLM 奠定了根底。假如能够在不添加预算的情况下选用更高级的 AI 功能,这或许会推动人工智能技术在各个职业的更广泛选用,即使是较小的企业也有才能在其运营中施行复杂的人工智能模型。

当然,这只是一个视点,FrugalGPT 究竟能完成怎样的影响力,能否成为「AI 职业的游戏规则改动者」,还需求一段时间才能揭晓。在论文发布之后,这项研讨也引发了一些争议:

GPT-4 API平替?性能媲美同时成本降低98%,斯坦福提出FrugalGPT,研究却惹争议

「摘要严重夸张了论文的内容,这儿的标题也有严重的误导性。他们所做的是规划了一种办法,以减少在论文中所涉及的一类问题中需求调用高端模型的次数。这不是以 2% 的本钱代替 GPT-4,也不是以 4% 的精度代替 GPT-4。它是一种将 GPT-4 与更低价的模型和支持性根底设施相结合的办法。摘要中没有指出的是,这需求建立一个自定义模型来对成果进行评分,而这是该机制的真正中心。…… 这种办法有合法的用例,其间包括根本的本钱工程,如缓存成果。但关于大多数用例来说,这彻底不相关,由于你没有一个合适的评分模型。」

GPT-4 API平替?性能媲美同时成本降低98%,斯坦福提出FrugalGPT,研究却惹争议

「他们只在三个(小的)数据集上评价了这一点,而且没有供给关于 FrugalGPT 挑选各自模型的频率的信息。别的,他们报告说较小的模型取得了比 GPT-4 更高的精确性,这使我对这篇论文全体上十分置疑。」

详细怎么判断,让咱们看一下论文内容。

怎么经济、精确地运用 LLM

接下来论文介绍了怎么在预算规模内高效的运用 LLM API。如图 1 (b) 所示,该研讨讨论了三种下降本钱的战略,即 prompt 习惯、LLM 近似和 LLM 级联。

GPT-4 API平替?性能媲美同时成本降低98%,斯坦福提出FrugalGPT,研究却惹争议

战略 1:prompt 习惯。LLM 查询的本钱与 prompt 的大小呈线性增加。因而,下降运用 LLM API 本钱的一个合理办法包括减小 prompt 大小,该研讨将这个过程称为 prompt 习惯。prompt 挑选如图 2(a)所示:与运用包括许多示例以演示怎么执行使命的 prompt 相比,能够只保存 prompt 中的一个小子集示例。这将导致更小的 prompt 和更低的本钱。另一个比方是查询串联(图 2(b)所示)。

GPT-4 API平替?性能媲美同时成本降低98%,斯坦福提出FrugalGPT,研究却惹争议

战略 2:LLM 近似。LLM 近似的概念十分简略:假如运用 LLM API 本钱太高,能够运用更实惠的模型或根底设施进行近似。其间一个比方如图 2(c)所示,其根本思想是在向 LLM API 提交查询时将呼应存储在本地缓存(例如数据库)中。LLM 近似的另一个比方是模型微调,如图 2 (d) 所示。

战略 3:LLM 级联。不同的 LLM API 在各种查询中都有自己的优势和劣势。因而,恰当挑选要运用的 LLM 既能下降本钱又能进步功能。如图 2(e)所示为 LLM 级联的一个比方。

本钱的下降与精度的进步

研讨者进行了一项关于 FrugalGPT LLM 级联的实证研讨,方针有三个:

  • 了解 LLM 级联的简略实例所学习的内容;
  • 量化 FrugalGPT 在匹配最佳的单个 LLM API 的功能时完成的本钱节省;
  • 衡量 FrugalGPT 所完成的功能和本钱之间的 trade-off。

试验设置分为几方面:LLM API(表 1)、使命、数据集(表 2)和 FrugalGPT 实例。

GPT-4 API平替?性能媲美同时成本降低98%,斯坦福提出FrugalGPT,研究却惹争议

FrugalGPT 是在上述 API 之上开发的,并在一系列归于不同使命的数据集上进行了评价。其间,HEADLINES 是一个金融新闻数据集,方针是经过阅读金融新闻标题来确认金价趋势(上升、下降、中性或无),这关于过滤金融市场的相关新闻特别有用;OVERRULING 是一个法令文件数据集,其方针是确认一个给定的句子是否是一个「overruling」,即推翻以前的法令案件;COQA 是一个在对话环境中开发的阅读了解数据集,研讨者将其改编为一个直接查询答复使命。

他们专心于 LLM 级联办法,级联长度为 3,由于这简化了优化空间,而且已经展示了良好的成果。每个数据集被随机分红一个练习集来学习 LLM 级联和一个测试集进行评价。

GPT-4 API平替?性能媲美同时成本降低98%,斯坦福提出FrugalGPT,研究却惹争议

这儿是一个 HEADLINES 数据集案例研讨:设定预算为 6.5 美元,是 GPT-4 本钱的五分之一。选用针对回归的 DistilBERT [SDCW19] 作为评分函数。值得注意的是,DistilBERT 比这儿考虑的一切 LLM 都要小得多,因而本钱较低。如图 3(a)所示,学习的 FrugalGPT 顺序调用 GPT-J、J1-L 和 GPT-4。关于任何给定的查询,它首要从 GPT-J 中提取一个答案。假如这个答案的分数大于 0.96,这个答案就被承受为终究的呼应。否则,将对 J1-L 进行查询。假如 J1-L 的答案得分大于 0.37,则被承受为终究答案;否则,将调用 GPT-4 来取得终究答案。风趣的是,这种办法在许多查询中都优于 GPT-4。例如,根据纳斯达克的头条新闻「美国 GDP 数据惨白,黄金脱离低点」,FrugalGPT 精确地预测了价格将下跌,而 GPT-4 供给了一个错误的答案(如图 3(b)所示)。

全体来说,FrugalGPT 的成果是既进步了精确率又下降了本钱。如图 3 (c) 所示,其本钱下降了 80%,而精确率乃至高出 1.5%。

GPT-4 API平替?性能媲美同时成本降低98%,斯坦福提出FrugalGPT,研究却惹争议

LLM 的多样性

为什么多个 LLM API 有或许产生比最好的单个 LLM 更好的功能?从本质上讲,这是由于生成的多样性:即使是一个低本钱的 LLM 有时也能正确地答复更高本钱的 LLM 所不能答复的查询。为了衡量这种多样性,研讨者运用最大的功能改善,也能够成为 MPI。LLM A 相关于 LLM B 的 MPI 是指 LLM A 产生正确答案而 LLM B 供给错误答案的概率。这个目标实质上是衡量在调用 LLM B 的一起调用 LLM A 所能到达的最大功能提升。

图 4 显现了一切数据集的每一对 LLM API 之间的 MPI。在 HEADLINES 数据集上,GPT-C、GPT-J 和 J1-L 都能够将 GPT-4 的功能进步 6%。在 COQA 数据集上,有 13% 的数据点 GPT-4 呈现了错误,但 GPT-3 供给了正确的答案。尽管这些改善的上界或许并不总是能够完成的,但它们的确证明了运用更低价的服务来完成更好功能的或许性。

GPT-4 API平替?性能媲美同时成本降低98%,斯坦福提出FrugalGPT,研究却惹争议

本钱节省

随后,研讨者考察了 FrugalGPT 是否能在保持精确性的一起下降本钱,假如能,又能下降多少。表 3 显现了 FrugalGPT 的全体本钱节省,规模从 50% 到 98%。这是可行的,由于 FrugalGPT 能够识别那些能够由较小的 LLM 精确答复的查询,因而只调用那些具有本钱效益的 LLM。而强大但贵重的 LLM,如 GPT-4,只用于由 FrugalGPT 检测到的应战性查询。

GPT-4 API平替?性能媲美同时成本降低98%,斯坦福提出FrugalGPT,研究却惹争议

功能和本钱的权衡

接着,研讨者探讨了 FrugalGPT 完成的功能和本钱之间的权衡,如图 5 所示,得出了几个风趣的调查成果。

首要,不同 LLM API 的本钱排名并不是固定的。此外,更贵重的 LLM APIs 有时会导致比其更便宜的同类产品更差的功能。这些调查成果强调了恰当挑选 LLM API 的重要性,即使在没有预算限制的情况下。

接下来,研讨者还注意到,FrugalGPT 能够在一切被评价的数据集上完成平滑的功能 – 本钱权衡。这为 LLM 用户供给了灵活的挑选,并有或许帮助 LLM API 供货商节省动力和减少碳排放。事实上,FrugalGPT 能够一起下降本钱和进步精确度,这或许是由于 FrugalGPT 整合了来自多个 LLM 的常识。

图 5 所示的比方查询进一步解说了为什么 FrugalGPT 能够一起进步功能和下降本钱。GPT-4 在一些查询上犯了错误,比方例如(a)部分的第一个比方,但一些低本钱的 API 供给了正确的预测。FrugalGPT 精确地识别了这些查询,并彻底依赖低本钱的 API。例如,GPT-4 错误地从法令陈说「现在是协谐和标准咱们在这个领域的案件的时候了」中推断出没有推翻,如图 5(b)所示。但是,FrugalGPT 承受了 GPT-J 的正确答案,避免了贵重的 LLM 的运用,进步了全体功能。当然,单一的 LLM API 并不总是正确的;LLM 级联经过选用一连串的 LLM API 克服了这一点。例如,在图 5 (a) 所示的第二个比方中,FrugalGPT 发现 GPT-J 的生成或许不可靠,于是转向链中的第二个 LLM J1-L,以找到正确的答案。相同,GPT-4 供给了错误的答案。FrugalGPT 并不完美,仍有足够的空间来减少本钱。例如,在图 5 (c) 的第三个比方中,链中一切的 LLM API 都给出了相同的答案。但是,FrugalGPT 不确认第一个 LLM 是否正确,导致需求查询链中的一切 LLM。确认怎么避免这种情况仍然是一个开放的问题。

GPT-4 API平替?性能媲美同时成本降低98%,斯坦福提出FrugalGPT,研究却惹争议

更多研讨细节,可参阅原论文。

参阅链接:

www.reddit.com/r/singulari…