OpenAI 开源的数学数据集,中国厂商新成果一举冲到最前列!

就在 9 月 16 日,国产大模型在威望推理评测集 GSM8K 中,初次达到了 80% 正确率,大幅抢先 GPT-3.5(57.1%)和 LLaMA2-70B(56.8%)。

而且这家厂商在大模型榜单上改写全球纪录,现已不是榜首次了。

国产大模型推理能力已超GPT-3.5!冲进OpenAI评测榜第一梯队

它背面的公司在如火如荼的大模型技术江湖中,也一再被提及,越来越受关注。

不卖关子,它正是天工大模型,由昆仑万维打造。

怎样做到的?详细来看。

大模型推理才干 Benchmark 跻身前列

天工大模型这次一战成名的,是大模型数学推理才干评测基准,GSM8K

GSM8K 由 OpenAI 发布,是一个包括 8500 个小学水平高质量数学题的数据集,设计准则有四:

高质量、高多样性、中等难度和自然言语解决方案。

所以这家伙现在一般被用做测验各家大模型推理才干的 Benchmark。

上个月,微柔和中国科学院联合发布了一项关于 WizardMath 的研讨成果,主要在 GSM8K 和另一个常见数学基准上测验了市面上干流开闭源大模型的功能。

闭源模型上,拿下最高分的是 GPT-4,正确率 92%;GPT-3.5 的正确率为 57.1%。

开源模型这边,不同参数规划的 LLaMA-2 最高正确率 56.8%,最高分则被微软的 WizardMath-70B 拿走,正确率 81.6%。

国产大模型推理能力已超GPT-3.5!冲进OpenAI评测榜第一梯队

那么,天工大模型的成果怎样样?

正确率 80%。

这个成果,比现在最强数学垂域开源模型的 WizardMath-70B 低了 1.6%,与 ChatGPT、540B 参数的 PaLM-2 简直持平。

而且大幅超越 GPT-3.5 和各个规划的 LLaMA2。

一起在小米揭露的中文数学测验集 Cmath 上,天工大模型均匀准确率为 76.8%(ChatGPT 74.8%)。

为了做个验证,依照惯例,天工大模型和 GPT-3.5 面临了来自 GSM8K 测验集的英文同题考验。

Round one

:每天,Wendi 给每只鸡喂三杯混合鸡饲料,其间包括种子、黄粉虫和蔬菜,以帮助它们保持健康。她分三餐给鸡喂养。上午,她给鸡群喂 15 杯饲料。下午,她再给鸡喂 25 杯饲料。

假如 Wendi 有 20 只鸡,那么一天的终究一餐,她需要给鸡喂多少杯饲料?

天工大模型答,一天的终究一餐中要喂 20 杯饲料,才干确保鸡崽子们一天都吃饱。

国产大模型推理能力已超GPT-3.5!冲进OpenAI评测榜第一梯队

GPT-3.5 答,Wendi 需要在一天的终究一餐中给鸡崽子们喂 21 杯饲料。

国产大模型推理能力已超GPT-3.5!冲进OpenAI评测榜第一梯队

OK,这一局,GPT-3.5 输了。

Round two

问:道费尔姐妹带着从动物收容所领养的 7 只小猫开车回家时,妈妈打来电话,告知她们家里的两只猫刚生了小猫。妈妈说,Patchy 猫猫生了三倍于被领养数量的小猫,而另一只 Trixie 猫猫生了 12 只。

现在道费尔一家一共有多少只小猫?

天工大模型答,当然是有 40 只小猫啦~

国产大模型推理能力已超GPT-3.5!冲进OpenAI评测榜第一梯队

GPT-3.5 答,道费尔一家现在共有 33 只小猫。

国产大模型推理能力已超GPT-3.5!冲进OpenAI评测榜第一梯队

看来第二局仍是天工大模型赢了。

Round 3

:巨龙高坐在法尔博山上,向 1000 英尺范围内的任何东西疯狂喷火。波莉能够将压制巨龙的兵器投掷 400 英里,但当她拿着蓝宝石时,能比不拿宝石时把标枪扔得远三倍。

假如拿着宝石,波莉能站在龙焰射程之外多远的当地,用金标枪击中龙?

天工大模型给出的解题思路如下,而且生成答案为 200 英尺。

国产大模型推理能力已超GPT-3.5!冲进OpenAI评测榜第一梯队

GPT-3.5 给出的解题思路也摆在这,终究答案也是 200 英尺。

国产大模型推理能力已超GPT-3.5!冲进OpenAI评测榜第一梯队

这次二位打成了平局。

但是能够看到,比较 GPT-3.5,天工大模型的解题思路更简略直接,解题步骤也更少更短。

一般来说,现在干流大模型们最近不太盛行揭露评测成果,但昆仑万维放话了:

尽管现在仍是内测阶段,但天工大模型这次不只对外发布了评测成果,还宣布后续会布置上线基座,供用户体验。

更重要的是,天工大模型答应研讨人员、开发者请求 API,对上述成果进行验证

PS 请求办法:

供给 “姓名”“手机号”“所属组织 / 单位”,发送至官方邮箱 neice@kunlun-inc.com 进行请求。

若经过,三个工作日内将收到回复邮件,内含测验 API 及相关信息。

(截止时刻为 9 月 27 日 0 点)

国产大模型推理能力已超GPT-3.5!冲进OpenAI评测榜第一梯队

多个榜单跻身前列

除了 GSM8K,另一个推理评测基准 HumanEval,以及两个通识评测基准 MMUL、C-Eval 上,天工大模型也有出色体现。

国产大模型推理能力已超GPT-3.5!冲进OpenAI评测榜第一梯队
根据揭露测验数据搜集整理

HumanEval 相同出自 OpenAI,是 OpenAI 为了评估 Codex 模型的有效性而创立的数据集。

经过这个数据集,研讨人员能够对 Codex 模型进行评估,并了解其在代码生成方面的准确性和效果。

在这个数据集上,天工大模型成果是 37.2%。

MMLU 是 UC 伯克利等打造,调集了科学、工程、数学、人文、社会科学等范畴的 57 个科目。

其主要方针,是对模型的英文跨学科专业才干进行深入测验。天工大模型的成果是 65%。

C-EVAL 评测基准由上海交大、清华以及爱丁堡大学联合创立,是一个面向中文言语模型的归纳考试评测集,覆盖了 52 个来自不同行业范畴的学科。

天工大模型的得分为 65,超越了 GPT-3.5 的 54.4 的成果。

国产大模型推理能力已超GPT-3.5!冲进OpenAI评测榜第一梯队

成果亮眼的天工大模型,发布在本年 4 月。

其 AI 生成才干可满足案牍创作、知识问答、代码编程、逻辑推演、数理推算等多元化需求。

4 月发布,9 月能取得酱紫的成果,昆仑万维是怎样养殖天工大模型这匹黑马的?

先拿模型实力来说话。

这是一个双千亿大模型(指天工拥有千亿预练习基座模型和千亿 RLHF 模型。),现在版本最高支撑 1 万字以上文本对话,完成 20 轮次以上用户交互。

二者的 “强强联手” 之下,天工大模型的优势便凸显了出来。

国产大模型推理能力已超GPT-3.5!冲进OpenAI评测榜第一梯队

而模型层之外,为大模型积攒实力的无外乎算法、算力、数据三大件。

算法层方面,天工大模型也有自己的秘籍。

通常来说,市面上大模型们普遍选用 Transformer 架构。在此基础上,天工团队初次引入了蒙特卡洛查找树算法(AlphaGo 背面也是这算法)。

国产大模型推理能力已超GPT-3.5!冲进OpenAI评测榜第一梯队

再说天工大模型背面的算力,基于中国最大的 GPU 集群之一

微弱算力鼎力支撑的,是天文数字版的数据量——依照借助 “开源力气” 的战略,天工从数十万亿的数据中,终究清洗、筛选出了近 3 万亿单词的数据。

现在,天工大模型在推理、通识多个榜单开花,能够想见由于背面算力、算法、数据扎实储备,天工大模型拥有的现已不是模型规划优势,技术创新和推理功能方面,也有了新突破。

国产大模型绕不过的狠人物

其实,推理才干大幅超越 GPT-3.5 和 LLaMA2,现已不是昆仑万维携天工大模型榜首次拿成果炸场。

不久之前,天工大模型多模态团队的 Skywork-MM 用了大约 50M 的图文数据,以远小于其他大模型的数据量(>100M),登顶了多模态榜单。

国产大模型推理能力已超GPT-3.5!冲进OpenAI评测榜第一梯队
MME 感知榜榜首,认知榜第二,总榜榜首

昆仑万维另一则引得世人瞩目的新闻,是 AI 大牛颜水成的加入。

他出任天工智能联席 CEO、2050 全球研讨院院长,将在新加坡、伦敦、硅谷三地树立 2050 全球研讨院的研讨中心,并逐步展开几个范畴的研讨:

  • 下一代 Foundation Model 的基础研讨和研制;

  • Agent 的研制和智能体进化的研讨;

  • 生物智能等前沿技术范畴的探索。

国产大模型推理能力已超GPT-3.5!冲进OpenAI评测榜第一梯队

颜水成道出加盟昆仑万维的原因:

在通用人工智能范畴,从研讨、研制到产品是完整的链条,缺一不可,只要将三者彻底打通,研讨才干发挥最大价值。

在国内,能将研讨、研制、产品三线合一的渠道少之又少,昆仑万维布局了 AI 大模型、AI 动漫、AI 交际、AI 游戏、AI 查找和 AI 音乐六大方向,一起昆仑万维的中心事务面向全球商场,其才干矩阵和生态系统十分具有幻想空间。

大模型潮流,浩浩荡荡。

本年以来国产大模型的发展势头迅猛,吸引越来越多的人才加入其间,由此助力各家大模型不断地迭代晋级,涌现出更强壮的才干,适配更广泛的使用场景。

昆仑万维在大模型的革新中,战略重视,动作一再,而且也有事务场景。

能够不夸张地说一句,昆仑万维和它家的天工大模型,现已是大模型江湖中,一个绕不过去的狠人物了。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。