匈牙利高中数学考试得分仅次于GPT-4

丰色 发自 凹非寺

量子位 | 公众号QbitAI

国产大模型刚刚出了一位全新选手:

参数670亿的DeepSeek。

它在近20个中英文的公开评测榜单上直接逾越了同量级、700亿的Llama 2

并尤其以推理、数学和编码才能为杰出。

秒杀700亿Llama 2!最新国产大模型露脸,无需请求即可免费商用,背面公司来自私募巨子

其中在数学才能上,它测了Grok刚刚参与过的匈牙利今年最新的高中数学考试题,得了65分

秒杀700亿Llama 2!最新国产大模型露脸,无需请求即可免费商用,背面公司来自私募巨子

比照Grok当时发布的成果:59分,以及GPT-4的68分,表现十分出色。

DeepSeek主打一个发布即开源:

共包括70亿和670亿两个参数版别,每个版别均含基础模型和指令微调模型,无需请求,即可免费商用

一起,它已开放了全面内测,注册一下就能玩。

秒杀700亿Llama 2!最新国产大模型露脸,无需请求即可免费商用,背面公司来自私募巨子

Ps. DeepSeek的中文才能在GPT-3.5之上,能够运用中文进行测验。

秒杀700亿Llama 2!最新国产大模型露脸,无需请求即可免费商用,背面公司来自私募巨子

在推特上,DeepSeek也引起了一大批技术同行的重视:

早期测验过的人表明没毛病。

秒杀700亿Llama 2!最新国产大模型露脸,无需请求即可免费商用,背面公司来自私募巨子

还有人赞誉DeepSeek弥补了开源LLM在数学和编码上的短板。

秒杀700亿Llama 2!最新国产大模型露脸,无需请求即可免费商用,背面公司来自私募巨子

那么,DeepSeek是如何练习出来的?

与Llama架构相同

DeepSeek运用与Llama相同的架构,即自回归Transformer解码器架构。

其中70亿参数的版别运用多头注意力,670亿参数版别运用分组查询注意力。

预练习在包括2万亿个中英文token的数据集(序列长度4096)和AdamW优化器上进行。

其中70亿参数版别的模型的练习batch size为2304,学习率为4.2e-4;670亿参数版别的模型的batch size为4608,学习率为3.2e-4。

DeepSeek的练习过程中特别采用了多步学习率方案

先从2000个猜测步骤开端,然后在1.6万亿token时逐渐达到最大值的31.6%,在1.8万亿token时逐渐达到最大值的10%。

有网友看完表明:

这种从1.6万亿token时开启的学习率冷却阶段有点类似于“Scaling Vision Transformers”那篇论文中的lr方案消融操作。

这也与Llama的余弦学习率衰减(要求它们提前指定步数)彻底不同,十分风趣。

秒杀700亿Llama 2!最新国产大模型露脸,无需请求即可免费商用,背面公司来自私募巨子

下图是作者发布的DeepSeek练习损失曲线以及在几个基准上的曲线图:

秒杀700亿Llama 2!最新国产大模型露脸,无需请求即可免费商用,背面公司来自私募巨子

数学和编码才能杰出

我们要点重视DeepSeek进行的如下三大类测验成果。

一个是今年5月才发布的2023年匈牙利高中数学考试题。

虽然DeepSeek已经在GSM8k和MATH这两个规范基准上取得了不错的成果:

秒杀700亿Llama 2!最新国产大模型露脸,无需请求即可免费商用,背面公司来自私募巨子

但由于存在过度拟合这些数据集的危险,作者仍是决议点评一下样本外的数学泛化才能。

如下图所示,位于右上角的670亿参数DeepSeek终究在样本内数学才能(纵轴GSM8K)排名第三,仅次于Claude 2和GPT-4,但在样本外数学才能(横轴Exam Score)排名第二,仅次于GPT-4

秒杀700亿Llama 2!最新国产大模型露脸,无需请求即可免费商用,背面公司来自私募巨子

第二个是考验DeepSeek指令跟从才能的测验。

在此,作者运用了谷歌11月15日刚刚发布的指令跟从评测集,来点评模型的“听话程度”。

成果是抢先一众开源模型,但59.1分的成果与GPT-4还有20分的距离。

秒杀700亿Llama 2!最新国产大模型露脸,无需请求即可免费商用,背面公司来自私募巨子

最后是代码才能测验。

相同,作者在这里要点重视了样本外才能,挑选的是LeetCode今年7月2日到11月12日的最新真题进行测验。

成果是比国内常见的大模型都要好许多,并且也远远逾越了GPT 3.5。

秒杀700亿Llama 2!最新国产大模型露脸,无需请求即可免费商用,背面公司来自私募巨子

背面公司是谁?

经搜索,DeepSeek背面的公司名叫深度求索。base位于北京,今年5月正式建立。

方针不止是大模型,而是AGI。

就在11月初,这家公司就发布代码大模型DeepSeek Coder

与之前最好的开源大模型CodeLlama相比,DeepSeek Coder在代码生成任务上(运用规范数据集HumanEval、MBPP和DS-1000进行评测)分别抢先了9.3%、10.8%和5.9%。

秒杀700亿Llama 2!最新国产大模型露脸,无需请求即可免费商用,背面公司来自私募巨子

特别值得一提的是,深度求索其实是从知名私募巨子幻方旗下独立出来的一家公司。

幻方这家公司听起来和AI“八杆子打不着”,但实际上,2019年时,幻方就发布了自研深度学习练习平台“萤火一号”。

据称该项目总投资近2亿元,共搭载了1100块GPU。

后来“萤火一号”由升级为“二号”,搭载的GPU数则达到了约1万张

参阅链接:
[1]mp.weixin.qq.com/s/Zj7gPGqJ8…
[2]twitter.com/johannes_ha…
[3]twitter.com/jeremyphowa…
[4]twitter.com/bindureddy/…
[5]zhuanlan.zhihu.com/p/636451367