房屋 发自 凹非寺 量子位 | 大众号 QbitAI

整个开源大模型战场,打得乱成一锅粥了!

最新参加战事的是王小川创业的AI公司百川智能,宣告推出70亿中英文预练习大模型baichuan-7B

速度不慢——此刻距离百川智能在4月中旬官宣创业,开始练习大模型,只过去了2个月时间。

并且在3个中文评价基准C-Eval、AGIEval和Gaokao上,均拿下SOTA。

王小川大模型2个月交卷!开源7B规模里中文最强,GitHub揽星2.2k

据官方音讯,baichuan-7B代码采用更为宽松的开源协议,只需简单挂号,就能免费商用

现在,baichuan-7B大模型已在抱抱脸、Github和魔搭发布,开源内容包含推理代码、INT4量化完成、微调代码,以及预练习模型的权重。

并且北大和清华已经首先成为baichuan-7B的入幕之宾,开始运用其推动相关研讨工作。

王小川大模型2个月交卷!开源7B规模里中文最强,GitHub揽星2.2k

万亿token中英文大模型

baichuan-7B,采用了LLaMA一样的模型设计。

作为70亿参数的底座模型,尚未经过监督微调(supervised fine-tuning)和RLHF。

可用于文本生成、文本分类、问答体系、机器翻译等多个范畴。

王小川大模型2个月交卷!开源7B规模里中文最强,GitHub揽星2.2k

作为中英双语模型,主要以高质量中文语料为根底,同时交融优质英文数据。

数据质量方面,经过质量模型对数据进行打分,对原始数据集进行华章级和语句级的准确筛选。

内容多样性方面,利用自研超大规划局部灵敏哈希聚类体系和语义聚类体系,对数据进行了多层次多粒度的聚类,最终构建的预练习数据包含1.2万亿token,兼顾质量和多样性。

相较于其他同参数规划的开源中文预练习模型,数据量提高了50%以上。

以万亿token为根底,为了更好地提升练习效率,baichuan-7B深度整合模型算子,以加快核算流程。

还针对使命负载和集群装备,自适应优化了模型并行战略以及重核算战略。

经过高效的练习进程调度通讯,baichuan-7B成功完成了核算与通讯的高效重叠,从而到达超线性的练习加快,在千卡集群上练习吞吐到达180+Tflops。

王小川大模型2个月交卷!开源7B规模里中文最强,GitHub揽星2.2k

现在开源模型窗口的普遍行情是,长度在2K以内。

这样的处理长度对长文本建模使命,如需求引进外部常识做搜索增强的场景,产生了较大的限制。

为了练习与推理阶段捕获越多的上下文信息,baichuan-7B根据attention算子优化,完成了万等级超长动态窗口的扩张才能,开放了4K上下文窗口

此外,baichuan-7B还对模型练习流程进行了深度优化,提升了模型收敛速度。

与平等参数规划的模型比较,baichuan-7B在困惑度(PPL)和练习丢失(training loss)等关键性能指标上体现更加优秀。

为了验证模型的各项才能,baichuan-7B在C-Eval、AGIEval和Gaokao三个中文评价基准进行了归纳评价,均取得优异成绩。

(Gaokao是复旦大学研讨团队创建的评测结构,以高考题为数据集,拿来测验大模型在中文语言了解和逻辑推理才能方面的体现。)

王小川大模型2个月交卷!开源7B规模里中文最强,GitHub揽星2.2k

英文评价基准MMLU的评测中,baichuan-7B归纳评分达42.5分,抢先英文开源预练习模型LLaMA-7B。

王小川大模型2个月交卷!开源7B规模里中文最强,GitHub揽星2.2k

500亿参数版本推动ing

从2月王小川宣告参加大模型占据已在“准备之中”,到4月中旬官宣新公司百川智能称号,正式参加混战,到现在baichuan-7B的推出,用时大约4个月

难怪乎试用网友们除了对baichuan-7B进行人肉体验外,不少人还对研制速度进行点赞:

王小川大模型2个月交卷!开源7B规模里中文最强,GitHub揽星2.2k
王小川大模型2个月交卷!开源7B规模里中文最强,GitHub揽星2.2k

现在,北京大学和清华大学已首先运用baichuan-7B推动相关研讨工作,并方案在未来与百川智能深入协作。

动作迅速的百川智能,背后是怎么样的团队班底?

除了牵头人王小川,前搜狗COO茹立云是已经对外发布的合伙人。

团队方面,以此前搜狗团队为根底,加上来自百度华为微软字节腾讯等公司的人才。

现在,公司还传出对外招聘大模型实习算法工程师的音讯。

公司旨在打造中国版的OpenAI根底大模型及颠覆性上层使用,瞄准搜索、多模态、教育、医疗等范畴。

于今年2月启动筹办后,迅速取得5000万美元(约人民币3.4亿元)启动资金,王小川自掏腰包一部分,还有来自业内好友的个人支撑。

王小川大模型2个月交卷!开源7B规模里中文最强,GitHub揽星2.2k

4月正式旗帜鲜明地进入大模型之战时,王小川曾对量子位泄漏,百川智能的大模型已经在练习,年中就会有第一版发布,希望年底追平GPT-3.5。

不过,与当初的说法略有出入,现在与我们见面的模型是70亿参数,而非当时所说的“500亿参数版本”。

Why??

王小川对此的解释是:

原定方案没有变,仍在顺利推动中。

辣么,也就是说今年夏天,百川智能还会丢出一枚大模型。

到时候已经乱成一锅粥的开源大模型赛事,会有更强烈的纷飞炮火吧?

王小川大模型2个月交卷!开源7B规模里中文最强,GitHub揽星2.2k

开源地址:
Hugging Face:huggingface.co/baichuan-in…
Github:github.com/baichuan-in…
Model Scope:modelscope.cn/models/baic…

联系 作者

王小川大模型2个月交卷!开源7B规模里中文最强,GitHub揽星2.2k