【新智元导读】现在大言语模型们也要像王者荣耀/LoL/Dota这些游戏里的玩家相同打排位赛了!

前段时间,来自LMSYS Org(UC伯克利主导)的研究人员搞了个大新闻——大言语模型版排位赛!

这次,团队不只带来了4位新玩家,而且还有一个(准)中文排行榜。

  • OpenAI GPT-4
  • OpenAI GPT-3.5-turbo
  • Anthropic Claude-v1
  • RWKV-4-Raven-14B(开源)

毫无疑问,只要GPT-4参战,必定是稳居第一。

不过,出人意料的是,Claude不只超过了把OpenAI带上神坛的GPT-3.5位列第二,而且只比GPT-4差了50分。

相比之下,排名第三的GPT-3.5只比130亿参数的最强开源模型Vicuna高了72分。

而140亿参数的「纯RNN模型」RWKV-4-Raven-14B凭借着杰出的体现,逾越一众Transformer模型排到了第6——除Vicuna模型外,RWKV在与一切其他开源模型的非平局竞赛中赢得了超过50%的竞赛。

UC伯克利LLM准中文排行榜来了!GPT-4稳居第一,国人开源RNN模型冲进前六

此外,团队还分别制作了「仅英语」和「非英语」(其间大部分是中文)这两个独自的排行榜。

能够看到,不少模型的排位都呈现了显着的改变。

比方,用更多中文数据练习的ChatGLM-6B的确体现更好,而GPT-3.5也成功逾越Claude排到了第二的位置。

UC伯克利LLM准中文排行榜来了!GPT-4稳居第一,国人开源RNN模型冲进前六

本次更新的主要贡献者是盛颖、Lianmin Zheng、Hao Zhang、Joseph E. Gonzalez和Ion Stoica。

盛颖是LMSYS Org的3个创始人之一(别的两位是Lianmin Zheng和Hao Zhang),斯坦福大学计算机科学系的博士生。

她也是之前爆火的、能够在单GPU上能够跑175B模型推理的系统FlexGen的一作,现在已获8k星。

UC伯克利LLM准中文排行榜来了!GPT-4稳居第一,国人开源RNN模型冲进前六

论文地址:arxiv.org/abs/2303.06…

项目地址:github.com/FMInference…

个人主页:sites.google.com/view/yingsh…

「开源」VS「闭源」

在社区的帮助下,团队共收集了13k条匿名投票,并且有了一些有趣的发现。

专有与开源的距离

在三个专有模型中,Anthropic的Claude模型比GPT-3.5-turbo更受用户欢迎。

而且,Claude在与最强壮的GPT-4竞赛时,也体现得非常有竞赛力。

UC伯克利LLM准中文排行榜来了!GPT-4稳居第一,国人开源RNN模型冲进前六

从下面这个胜率图来看,GPT-4和Claude之间的66场非平局竞赛中,Claude赢得了32场(48%)竞赛。

UC伯克利LLM准中文排行榜来了!GPT-4稳居第一,国人开源RNN模型冲进前六

一切非平局A vs B对战中,模型A成功的份额

但是,其他开源模型与这三个专有模型之间,依然存在着很大的距离。

特别是,GPT-4以1274的Elo分数领跑排行榜。这比榜单上最好的开源替代——Vicuna-13B——要高出近200分。

在去掉平局后,GPT-4在与Vicuna-13B对战时赢得了82%的竞赛,甚至在与前一代GPT-3.5-turbo对战时赢得了79%的竞赛。

但是,值得注意的是,排行榜上的这些开源模型一般具有比专有模型更少的参数,范围在30亿 – 140亿之间。

实际上,最近在LLM和数据策划方面的进展使得运用较小模型获得明显功能改善成为或许。

谷歌的最新PaLM 2便是一个很好的比如:咱们知道PaLM 2在运用较小模型大小时,比其前一代实现了更好的功能。

因而,团队对开源言语模型迎头赶上充满达观。

GPT-4在何时会「翻车」?

在下图中,用户提出了一个需要仔细推理和规划的扎手问题。尽管Claude和GPT-4供给了相似的答案,但Claude的回应稍微好一些。

但是,因为采样的随机性,团队发现这种状况并不能总能复刻。有时GPT-4也能像Claude相同给出相同的次序,但在这次生成试验中失利了。

别的,团队注意到,当运用OpenAI API和ChatGPT接口时,GPT-4的行为略有不同,这或许是因为不同的提示、采样参数或其他未知要素导致的。

UC伯克利LLM准中文排行榜来了!GPT-4稳居第一,国人开源RNN模型冲进前六

用户更喜爱Claude而不是GPT-4的一个比如

在下图中,尽管Claude和GPT-4都具有惊人的能力,但它们仍在处理这类杂乱的推理问题上挣扎。

UC伯克利LLM准中文排行榜来了!GPT-4稳居第一,国人开源RNN模型冲进前六

一个用户认为Claude和GPT-4都错了的比如

除了这些扎手的状况,还有许多并不需要杂乱推理或常识的简略问题。

在这种状况下,像Vicuna这样的开源模型能够与GPT-4体现适当,因而咱们或许能够运用稍弱小一些(但更小或更便宜)的大型言语模型(LLM)来替代像GPT-4这样更强壮的模型。

Elo分数的改变

自从三个强壮的专有模型参与以来,谈天机器人竞技场的竞赛从未如此激烈。

因为在与专有模型对战时,开源模型输掉了不少竞赛,因而它们的Elo分数都有所下降。

最后,团队还计划开放一些API,让用户能够注册自己的谈天机器人来参与排位赛。

参考资料:

lmsys.org/blog/2023-0…