成为Llama 2唯一中国合作伙伴,TA凭什么?

夕小瑶科技说 原创
作者 | 卖萌酱

上周,Llama 2的发布在AI圈子引起了巨大的颤动。

Llama 2比较上一代,不只用了更多的练习数据,并且context length直接翻倍,达到了4096。

成为Llama 2唯一中国合作伙伴,TA凭什么?

更重要的是,Llama 2在揭露测验基准上的成果显现,其在代码、常识推理、世界知识、阅读理解、数学等评测维度的才能均获得了大幅的提高。仅7B的版别就在许多测验集上挨近乃至超越30B的MPT模型的体现。

成为Llama 2唯一中国合作伙伴,TA凭什么?

尤其需求留意的是,Llama 2 70B模型在MMLU和BBH测验上的成果,别离比Llama 1 65B 的模型提高了约5和8个百分点。当规划相一起,Llama 2 7B和30B模型在除了编程基准测验之外的一切类别上,体现都优于MPT模型。

此外,关于Falcon模型,Llama 27B和34B在一切基准测验类别上,都超过了Falcon 7B和40B模型。不只如此,Llama 2 70B模型在一切开源模型中的体现是最好的。

除了与开源模型进行比较,论文里也对比了Llama 2 70B与闭源模型的成果。

成为Llama 2唯一中国合作伙伴,TA凭什么?

如表所示,Llama 2 70B在MMLU和GSM8K测验上挨近GPT-3.5模型,但在编程基准测验上,两者之间存在显着的距离。在几乎一切的基准测验上,Llama 2 70B的成果都等于或优于PaLM(540B)模型。

除此之外,这次还顺带发布了一个对齐人类偏好的finetune版别——Llama-2-chat模型,其对话流畅性和安全性都会比较Llama 2有一个比较显着的提高,当然,副作用就是模型在一些任务层面的功能或许会有所损失。

而Llama-2-chat模型跟一众开源/闭源模型的pk也是惊到了读者。

成为Llama 2唯一中国合作伙伴,TA凭什么?

竟然都能小幅打赢ChatGPT-0301! 并且评价方法是人类评价,而不是严峻有偏的刷榜式评价,虽然不是绝对无偏,但也能很大程度上表明实在的使用体会了。

那么问题来了,驱动Llama 2系列模型取得如此效果提高的要害是什么?

信任每一个算法工程师心里都有一个明晰的答案:
数据!
数据!
数据!

数据可以视为机器学习模型练习过程中的燃料,没有高质量的数据,就很难练习出高质量的模型。

模型练习对数据的依赖性主要体现在以下几个方面:

1.数据质量:模型的练习和预测体现在很大程度上取决于数据的质量。假如练习数据中缺乏高质量的写作数据、对话数据等等,自然就不或许产生高质量的文章和高质量的对话。
2. 数据量:关于深度学习模型,需求很多的练习数据才能从中学习到杂乱的模式。假如数据量缺乏,模型或许无法从中捕获到有用的信息,从而对未见过的新数据做出准确预测。一句话来说,约束模型对杂乱长尾模式的学习才能。
3.数据代表性:练习数据必须实在反映实在世界的状况,在一切或许的输入空间中都有杰出的掩盖。否则,模型或许会在面对未见过的状况时体现欠安。
4. 数据多样性:练习集的数据应该具有高度多样性。这样,模型可以学习到练习数据中的一般特征,而不是特定于某些特例的特征。

而Llama 2不只仅是在练习数据量的层面比较上一代Llama 1增加了40%,并且在数据来源和丰富性上也有了很大的改善。 但Llama 2在论文中对数据来源的细节却没有过多表述。这也更加说明了,数据来源对模型效果的要害性影响。

成为Llama 2唯一中国合作伙伴,TA凭什么?

在Llama 2以及Llama-2-chat模型的练习中,数据对模型效果起到了至关重要的作用。那么问题来了,除了众所周知的数据外,还有没有哪些数据是提之甚少或秘而不宣,但对模型效果起到了十分重要的作用呢?

由于笔者没有参与Llama 2的练习,自然无法直接回答。

但是,笔者在Llama的官网留意到,在很多Llama 2的全球合作伙伴里,有一家公司叫海天瑞声。

成为Llama 2唯一中国合作伙伴,TA凭什么?

海天瑞声的COO李科及CTO黄宇凯也出现在了Llama 2的supporters list里边,表示支持Meta AI的这种开源行为,可以让每个人都能从这个技能中受益良多,并为技能带来足够的透明度、审慎性和可信性。

成为Llama 2唯一中国合作伙伴,TA凭什么?

笔者不禁好奇的扒了一下海天瑞声,发现这家公司确实不简单。

根据官网介绍:

海天瑞声(股票代码:688787)成立于2005年,是我国最早从事AI练习数据解决方案供给商之一。海天瑞声作为AI数据职业首家主板上市公司,致力于为AI企业、研制组织供给AI数据集及服务。

海天瑞声向全职业供给多言语、跨范畴、跨模态的人工智能数据及相关数据服务,包括智能语音(语音辨认、语音组成等)、计算机视觉、自然言语等多个核心范畴,掩盖全球近200个主要语种及方言。

深耕职业近20年,与阿里巴巴、腾讯、百度、科大讯飞、海康威视、字节跳动、微软、亚马逊、三星、中国科学院、清华大学等全球810家科技互联网、社交、IoT、智能驾驶等范畴的干流企业,以及教育科研组织等建立了深度合作关系,以专业、牢靠、安全的数据服务,成功交给数千个定制项目,深得客户信赖。依托掩盖70多个国家、近200种言语及方言的优质资源,技能完善的算法研制团队,经验丰富的项目团队,全方位助力AI前沿项目的全球商业落地。

尤其要着重的,就是其在多言语数据集方面的才能,这个关于大模型基础才能的练习来说是十分重要的保证。

笔者深入挖掘发现海天瑞声还在大模型数据范畴打造了一套完整的文本标示一体化渠道,并汇聚很多特定垂类范畴布景的本硕专业人才,在可以满足大模型迭代周期频频、高质量数据集需求、特定范畴知识等各类需求,并保证数据的安全合规。

也难怪,在这样强大的数据供给商的才能加持下,无论是预练习,仍是微调、RLHF,大模型的基础到专业才能都会有一个比较扎实的保证。

超大规划中文千万轮对话数据集:DOTS-NLP-216

Llama 2发布的一起,海天瑞声也发布了一个符合中国人言语表达习惯的超大规划中文多轮对话数据集——DOTS-NLP-216。

这个数据集有多大呢?

Token数量达到了上亿规划,对话轮数高达千万轮!

咱们知道,当前在中文对话范畴,揭露的数据集往往量少、散布有偏、价格昂贵乃至不能商用。这就导致大模型在中文对话方面的才能,比较英文对话,总是显得“略显智障”。尤其是在一些需求比较深的中文言语理解才能的对话场景,无论开源的仍是闭源的大模型,都往往体现欠安。

而这份DOTS-NLP-216数据集,不只仅是数据规划大,并且对话场景掩盖到了作业、日子、学校等方方面面,更是涉及到了金融、教育、娱乐、体育、汽车、科技等许多范畴。

笔者有幸拿到了数据集的一些样本,看了下,质量确实十分高,贴个case感受一下:

成为Llama 2唯一中国合作伙伴,TA凭什么?

在数据集构成上,DOTS-NLP-216包含了对实在场景的对话收集,和高度还原实在场景的模拟对话这两种方法,来兼顾了散布的代表性、多样性和样本规划。

值得留意的是,DOTS-NLP-216是海天瑞声自有版权的数据集,可以授权商用,这意味着DOTS-NLP-216很或许会成为以后中文大模型厂商提高模型中文对话才能必备的数据集。

总的来说,海天瑞声近期发布的DOTS-NLP-216数据集,精准切中了当下大模型练习的刚需问题,无论数据规划、散布的掩盖度、安全合规以及商用方面,都做到了恰到好处。尤其在言语表达方面,笔者发现其十分符合中国人的言语表达习惯,信任这份数据聚会让大模型的“中文味”得到一个不错的提高!

此外,笔者还留意到,海天瑞声近期发布的再融资预案中说到其将建造不少于10大类型的大模型数据集系列产品,用于大言语模型、多模态大模型的练习和大模型评测,同样值得期待!

最终,附上数据集传送门:

www.speechocean.com/dataset/c60…

参考资料

[1]ai.meta.com/research/pu…