重训「羊驼」大模型并彻底开放商用，UC伯克利博士生：Meta不愿做就自己做

Meta“羊驼”（LLaMA）的开源可商用复现品OpenLLaMA发布严重更新：

在1T token上练习出来的130亿参数版别现已正式上线。

至此，这一练习量和原版羊驼已彻底一致。

与此同时，之前发布的70亿以及30亿参数版别也完成了1T token的练习，并发布PyTorch和JAX权重。

可谓“一家人整整齐齐”。

功能测验显示，OpenLLaMA在多项任务中的体现都与原始LLaMA适当，而且不乏逾越的状况。

一个彻底开源且供商用的LLaMA竞品家族就此诞生了。

目前，OpenLLaMA在GitHub上的标星数已近5k。

重训“羊驼”，最香替代品全面敞开商用

OpenLLaMA是UC伯克利的博士生Hao Liu发起的项目（Xinyang Geng具有同等奉献，也是该校博士生）。

它在Together公司发布的RedPajama数据集上练习，该数据集其实也是LLaMA练习集的复制品，总共包含1.2T token。

除了数据集不太相同之外，OpenLLaMA运用了与原始LLaMA彻底相同的预处理过程和练习超参数，包含模型架构、上下文长度、练习过程、学习率时间表和优化器，可以说是“重训”了一把。

今年5月，该团队率先发布了70亿参数版别，不过其时练习token仍是3000亿。

依照方案，如今和原LLaMA练习数据量一致的130亿参数版别和70亿、30亿版别一同发布。

据介绍，130亿版别是与Stability AI合作练习的，后者主要提供计算资源（当初Stable Diffusion也是这么与Stability AI合作）。

和另外两个版别相同，OpenLLaMA-13B也以两种格式发布权重：

一是用于Hugging Face transformer的PyTorch格式。

运用该格式时需求留意先避免运用Hugging Face快速分词器（tokenizer），由于它的主动转化功能有时会给出不正确的tokenization。

所以可以先直接运用LlamaTokenizer class来完成，或许用AutoTokenizer class，将use_fast赋为False。

二是用于EasyLM框架的EasyLM格式。

在此请留意，与原始LLaMA不同，该OpenLLaMA的分词器和权重是彻底从头开始练习的，因而不再需求获取原始 LLaMA的这俩信息。

接下来，在练习量已达成一致的状况下，看OpenLLaMA各规划模型的功能体现怎么。

在这里，作者运用EleutherAI发布的自回归语言模型few-shot评价框架（lm-evaluation-harness）对两只“羊驼”进行评价，以及还加入了“第三者”：

EleutherAI在Pile数据集上练习的60亿参数模型GPT-J，它的练习token数是5000亿。

需求留意的是，可能是由于不同的评价协议，作者跑出来的LLaMA成果与原始LLaMA略有不同。

以下是成果：

赤色小方框为OpenLLaMA超过或许与原LLaMA体现相同的状况。

在红框之外，两者的距离也不大。

而从平均体现来看，OpenLLaMA-7B和LLaMA-7B得分都是0.55，OpenLLaMA-13B和LLaMA-13B也都相同，为0.57，主打一个 势均力敌。

与此同时，只有30亿参数的OpenLLaMA平均功能逾越60亿参数的GPT-J。

特斯拉前AI高级总监Andrej Karpathy在上个月的微软Build大会的演讲上，曾多次表达一个意思：

LLaMA-65b就是目前最好的开源根底模型，可惜没能商用。

现在，650亿的商用平替羊驼虽然还没出现，130亿和70亿是现已妥妥安排好了。

不过，也有一则好消息。

就在几天前，据The Information爆料，Meta AI正方案发布一个新的LLM，而且 免费供大家商用。

有观点指出，在如今职业大佬如谷歌Bard和OpenAI ChatGPT都“紧闭大门”的状况下，Meta这一做法可能会引发连锁反应，而且开源模型和闭源模型的距离会越来越小。

就且拭目而待。

关于OpenLLaMA的一切相关链接：
github.com/openlm-rese…
huggingface.co/openlm-rese…

本文参阅链接还包含：
www.artisana.ai/articles/me…

—完—

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。