大模型的出现才能经得起推敲吗?

自 ChatGPT 发布以来,大模型的出现才能一直被人们称誉,包括强壮的言语理解才能、生成才能、逻辑推理才能等。然而,最近一项研讨表明,大模型在因果推理方面普遍功能很差,连 GPT-4 都不及格。

这项研讨是由来自马克斯・普朗克研讨所、苏黎世联邦理工学院(ETH)、密歇根大学、香港大学和 Meta AI 的研讨者们一起完成的。研讨目标就是探究大型言语模型(LLM)是否能依据相关性进行因果推理。

连GPT-4都考不及格,17个大模型悉数落败,因果推理太难了

论文地址:arxiv.org/abs/2306.05…

因果推理是一项重要的推理使命,取得因果关系主要有两种根本方式:一种是经过经历知识,例如,我们依据知识知道为朋友准备生日礼物会让他们高兴;另一种是经过一些程序和规矩进行朴实的因果推理(Spirtes et al., 2000; Pearl, 2009; Peters et al., 2017)。

如下图 1 所示:假如 A 与 B 相关,那并不意味着 A 导致 B;假如 A 和 B 本来是彼此独立的,但在给定 C 的情况下变得相关,那么能够推断,在这个封闭系统中,C 是 A 和 B 的一起效应(common effect)。

连GPT-4都考不及格,17个大模型悉数落败,因果推理太难了

该研讨提出一项新的 NLP 使命 —— 相关因果推理 (CORR2CAUSE)。假如 LLM 的成功来源于捕捉项与项之间大量的计算相关性,那么在关键步骤缺失时,怎么处理相关性并推理因果关系?因此,该研讨认为 CORR2CAUSE 推理是大型言语模型 (LLM) 的一项必备技术。

构建数据集

首要,该研讨收集整理了一个 CORR2CAUSE 数据集,用于测验大型言语模型朴实的因果推理才能。该数据集中的一切问题都围绕 LLM 何时从相关性推断出因果关系的有无。为了系统地构成 CORR2CAUSE 数据集,该研讨将泛化进程置于因果发现的正式结构中(Spirtes et al., 1993, 2000; Glymour et al., 2016; Spirtes and Zhang, 2016; Glymour et al., 2019),其中包括怎么依据变量在观测数据中的计算相关性推断变量之间因果关系的规矩。

连GPT-4都考不及格,17个大模型悉数落败,因果推理太难了

CORR2CAUSE 数据集包含 400K 个样本,有用样本占 18.57%,当且仅当计算相关性和潜在因果关系之间存在双射映射时,才将相关性 – 因果关系陈说对标记为有用。

连GPT-4都考不及格,17个大模型悉数落败,因果推理太难了

根据 CORR2CAUSE 数据集,该研讨主要剖析两个问题:

  • 现有的 LLM 在此使命上体现怎么?

  • 现有的 LLM 是否能够针对此使命进行从头训练或从头定位并取得强壮的因果推理技术?

该研讨经过试验表明,现有 17 个 LLM 在这个纯因果推理使命上体现均欠安。并且,尽管 LLM 在对数据进行微调后能够体现出更好的功能,但其因果推理技术并不稳健。

试验成果

现有 LLM 的 CORR2CAUSE 才能

如下表 4 所示,对于试验中一切 LLM 来说,纯因果推理都是一项十分具有挑战性的使命。其中,BART MNLI 的 F1 值最高,为 33.38%,甚至高于 GPT-4(29.08%)。值得注意的是,许多模型的体现比随机猜想还要差,这意味着它们在纯因果推理使命中完全失利。

连GPT-4都考不及格,17个大模型悉数落败,因果推理太难了

微调后的功能

接下来要解决的问题是:能否让 LLM 从头学习这项使命?

从下表 5 (a) 中的试验成果来看,在 CORR2CAUSE 上进行微调的 12 个模型体现得比较好,大多数模型都取得了明显的功能提升。其中,根据 BERT 的 NLI 模型微调之后体现最佳,RoBERTa-Large MNLI 在这个使命上达到了 94.74% 的 F1 分数,以及十分高的精确度、召回率和准确率得分。

连GPT-4都考不及格,17个大模型悉数落败,因果推理太难了

同时,上图 5 (b) 展示了受到搅扰时各模型的试验成果,一切模型的功能都在急剧下降,体现最好的模型 RoBERTa-Large MNLI 则是功能下降最多的模型;然而,RoBERTa-Large MNLI 对变量重构最稳健,保持了 67.87 的较高 F1 分数。总的来说,现有 LLM 的稳健性比较差。

除了上述全体成果,该研讨还进行了细粒度剖析,以探索最强模型 RoBERTa-Large MNLI 在六种因果关系类型上的体现。

如下表 6 (a) 所示,RoBERTa-Large MNLI 模型在判别关系方面体现十分好,例如「Is-Parent」、「Is-Descendant」和「Has-Confounder」,这些 F1 分数都超过了 96%。然而,在「Has-Collider」关系上,它的体现稍微弱一些。这可能是因为 collider 关系是最特殊的类型,需求根据仅有的两个变量的无条件独立性和在有一起子孙的条件下的相关性来辨认 V-structure。

连GPT-4都考不及格,17个大模型悉数落败,因果推理太难了

感兴趣的读者能够阅读论文原文,了解更多研讨细节。