LLaMA v.s. Falcon = 63.64 v.s. 49.08。评价成果表明,LLaMA 并未被「碾压」。

彻底反转:号称「碾压」LLaMA的Falcon实测得分仅49.08,HuggingFace决定重写排行榜代码

作为开源模型界的扛把子,LLaMA 一直备受瞩目。

这是一组由 Meta 开源的大型言语模型,共有 7B、13B、33B、65B 四种版本。其中,LLaMA-13B 在大多数数据集上超过了 GPT-3(175B),LLaMA-65B 达到了和 Chinchilla-70B、PaLM-540B 相当的水平。

自 2 月份发布以来,开源社区一直在 LLaMA 的基础进步行二创,先后推出了 Alpaca、Vicuna 等多个「羊驼」大模型,生物学羊驼属的英文单词都快被用光了。

不过,也有人对 LLaMA 发起了挑战。5 月底,阿联酋阿布扎比的技术创新研究所(TII)开源了一个 400 亿参数的因果解码器模型「Falcon-40B」,该模型在 RefinedWeb 的 1 万亿个 token 进步行了练习,并运用精选数据集增强。刚一发布,「Falcon-40B」就冲上了 Huggingface 的 OpenLLM 排行榜首位,「碾压」了参数规划 1.5 倍的「LLaMA-65B」,也优于 MPT、RedPajama 和 StableLM 等开源大模型。

彻底反转:号称「碾压」LLaMA的Falcon实测得分仅49.08,HuggingFace决定重写排行榜代码

后来,Falcon-40B Instruct 版本占有了排行榜首位,Falcon-40B 则退到了第三,而 LLaMA-65B 现已掉到了第六位。

不过,细心看过数据之后,围观者产生了疑问:为什么在 HuggingFace 的 Open LLM 排行榜上,LLaMA-65B 的 MMLU 这项分数是 48.8,显着低于官方数据 63.4?

彻底反转:号称「碾压」LLaMA的Falcon实测得分仅49.08,HuggingFace决定重写排行榜代码

HuggingFace 的 Open LLM 排行榜。地址:huggingface.co/spaces/Hugg…

彻底反转:号称「碾压」LLaMA的Falcon实测得分仅49.08,HuggingFace决定重写排行榜代码

LLaMA 论文中的 MMLU 数据。MMLU 是 Massive Multitask Language Understanding 的缩写,是一个基准数据集,旨在通过仅在零样本和少样本设置下评价模型来衡量预练习期间获取的常识。它由一系列学术科目中相似考试的问题组成,用于测验模型关于世界了解的能力。

还有人表明,在测 Falcon-40B 时,他们也复现不了排行榜上的分数。

彻底反转:号称「碾压」LLaMA的Falcon实测得分仅49.08,HuggingFace决定重写排行榜代码

面临这样的争议,Karpathy 等大牛挑选了慎重观望。

彻底反转:号称「碾压」LLaMA的Falcon实测得分仅49.08,HuggingFace决定重写排行榜代码

爱丁堡大学博士生符尧等则挑选自己测一遍。

简而言之,他们在 Chain-of-thought Hub 上从头写了开源的 LLaMA eval 代码,然后在相同的设定下,用官方 prompt,fp16,HF 默认代码,公平比较了 Falcon 和 LLaMA 在 MMLU 上的体现。

「没有花哨的 prompt 工程和解码,一切都是在默认设置下进行的。」符尧在推文中写道。

6 月 8 日,他们发布了第一批成果:LLaMA 65B 的 MMLU 得分为 61.4,比较接近官方数字(63.4),显着高于其 Open LLM Leaderboard 分数 48.8,且远高于 Falcon-40B 的 Leaderboard 分数 52.7。

彻底反转:号称「碾压」LLaMA的Falcon实测得分仅49.08,HuggingFace决定重写排行榜代码

初步来看,「你大爷仍是你大爷」。不过,这还不是 LLaMA 65B 的实在实力。在 6 月 10 日凌晨发布的第二波成果中,符尧解释说,他们在第一波测评中发现了一个「long prompt」引起的 bug,这个 bug 导致 LLaMA 在高中欧洲前史和高中美国前史上得到 0 分。在修正了这个 bug 后,LLaMA 得分变成了 63.64,与论文中报道的数字基本相同。

彻底反转:号称「碾压」LLaMA的Falcon实测得分仅49.08,HuggingFace决定重写排行榜代码

公平起见,运用相同的脚本,他们也测出了 Falcon-40B 的得分:49.08,低于 Leaderboard 分数 52.7,只比 LLaMA 13B 好一点。

彻底反转:号称「碾压」LLaMA的Falcon实测得分仅49.08,HuggingFace决定重写排行榜代码

彻底反转:号称「碾压」LLaMA的Falcon实测得分仅49.08,HuggingFace决定重写排行榜代码

由此,这次所谓的「碾压」事件完全回转。

符尧团队的这一尝试也招引了 HuggingFace 研究科学家 Nathan Lambert 的留意,后者决定重写 Open LLM Leaderboard 的代码。

彻底反转:号称「碾压」LLaMA的Falcon实测得分仅49.08,HuggingFace决定重写排行榜代码

不过,符尧专门指出,他们不打算在 LLaMA 和 Falcon 之间挑起战争:「两者都是伟大的开源模型,并为该领域做出了重大贡献!Falcon 还具有更简略的许可证优势,这也赋予了它强大的潜力!」

为了便利大家查看代码和开源成果,符尧发布了相关地址:github.com/FranxYao/ch…

如果在查看后有新的发现,欢迎在谈论区留言。

参阅链接:twitter.com/Francis_YAO…

www.zhihu.com/question/60…