引言

最近,各类大模型(简称LLM)如雨后春笋,目不暇接,于是“狠心”收拾了这些模型的进化联系,以飨读者。

(1) ChatGPT三步走

先回顾下ChatGPT练习方法。

2022年12月5日,OpenAI推出ChatGPT,在强大的GPT-3.5大模型基础上,引进人工数据标注和强化学习(RLHF),不断微调(finetune)练习而来。

其间,GPT-3.5指其时的InstructGPT,仅有一篇论文简单介绍练习流程。而ChatGPT发布时,信息更少,没有论文,只在官网简单贴了个与Instruct GPT高度相似的流程图,区别是:

  • 标注人员、动物换了个logo,如 青蛙→水獭。
  • 添加PPO模型初始化注解
模型 练习进程
GPT 3.5 InstructGPT
ChatGPT复现: 三步走+大模型进化图谱
ChatGPT
ChatGPT复现: 三步走+大模型进化图谱

已然如此,老老实实从InstructGPT论文里梳理“三步走”:

  • (1)SFT:监督指令微调,从5.4w人工标注的指令集中抽取1.3w,在GPT-3大模型上微调。
  • (2)RM:根据新模型生成一批数据集<prompt,response>,重组成3.3w排序对形式,人工标注后,用于练习奖赏模型。奖赏模型结构同基座LLM,论文里全部用6B等级,规模大了反而欠好。
  • (3)PPO:RLHF的具体实现,RM奖赏模型作为critic(评论家),SFT阶段的大模型作为actor(行动家),二者相互配合,actor学习指令集,critic评价打分,再更新权重,进入下一轮。论文里对比两种损失函数,后选用混合预练习损失PPT_ptx,兼顾预练习的作用。

ChatGPT复现: 三步走+大模型进化图谱

(2)ChatGPT复现思路

从大模型(1750亿等级)入手,收集范畴指令集,fine-tune(精调),植入RLHF、CoT、ICL等技能,试图趋近ChatGPT作用。

这条路由于道路清晰,目标明确,风险较小(只需速度够快),选手众多,如火如荼:

  • GPT-3和InstructGPT(3.5系列)没开源——没联系,找GPT相似结构的大模型作为基座。
  • OpenAI用了海量练习数据——用已有大模型(1750亿等级)冷启动
  • OpenAI用了指令微调、强化学习——改代码,植入进去,已有ChatGPT开源实现(如Colossial AI/DeepSpeed/Openassistant/Trlx等)
  • OpenAI用了许多算力——结合本身业务,做范畴微调、裁剪。

更多见文章:漫谈Prompt(提示工程)与CoT(思维链)

总结起来,垂类大模型落地过程,如图所示

  • ① 挑选适宜的基座LLM,并依据本身条件挑选对应规模
  • ② 准备范畴语料集、指令集(如调ChatGPT)
  • ③ 履行第一步SFT,简单微调LLM
  • ④ 评价更新后的LLM作用,可借用业界自动评价东西或人工抽样评价
  • ⑤作用还不合格?两条路:扩展基座模型规模、持续走第二三步
  • ⑥奖赏模型(Reward Model)练习:需求提早人工评价或用自动化计划替代(仍是ChatGPT)
  • ⑦强化学习练习:PPO、PPO_ptx

ChatGPT复现: 三步走+大模型进化图谱

图里的信息截止2023年3月,原图见博客

(3)如何选取基座模型

有论文(The Practical Guides for Large Language Models)依照模型结构收拾了大模型的进化树

  • Encoder-Only结构:BERT系列
  • Decoder-Only结构:GPT系列,成员最多
  • Encoder-Decoder结构:BART、T5、GLM

ChatGPT复现: 三步走+大模型进化图谱

图源

其间开源模型尤为“耀眼”,拿来就用。

  • GPT-2:彻底开源,合适自己晋级架构到GPT-3,并加上RLHF流程,照着OpenAI趟出来的路再走一遍。
  • BLOOM:彻底开源,2022年7月,法国BigScience开源的GPT-3等级LLM,176b,掩盖46种言语和13种编程言语,中文语料占比高达16%,仅次于英文的30%
  • OPT:2022年5月,META AI开源,175b。英文为主,中文欠安。只能科研,不能商用。
  • LLaMA:2023年2月25日,META根据OPT微调出一个用于谈天的大模型,7b~65b, 依旧英文为主,非商用,
  • GPT-NeoGPT-JGPT-NeoX:开源,英语为主。源自一个富有极客叛变精力的全球开源安排EleutherAI,已然OpenAIcolsed了,为地主独占,那就揭竿而起,自己做真实的开源。
  • GLM:清华发布,亚洲仅有上榜的175b等级LLM,中文版的ChatGLM商用受限。

LLM看着许多,但彻底开源的寥寥无几,这让准备商用的研制人员头疼不已。

(4)LLM进化图谱

面临OpenAI的closed趋势及商业巨子的垄断,全球各地都在想办法做真实的开源大模型。

国外有MTEA、HuggingFace、BigSicence、EleutherAI,国内有清华系以及Open开头的安排(如OpenBMB和OpenBuddy),还有个人。

供求严峻失衡情况下,只需呈现半开源的LLM,我们都会“哄抢”。

2023年3月,META半开源的LLaMA模型被人“走漏”,接着迅速“进化”,每隔几天就会呈现一个新“物种”,短短几个月,现已演化成全球最大的开源LLM生态系统。

2023年5月6日,一篇文章广为流传:

  • 谷歌内部文件走漏:咱们和OpenAI都没有护城河

主要观念:

  • Google 和 OpenAI 都不会取得竞争的成功,成功者会是开源 AI;
  • 开源 AI 用极低成本的高速迭代,现已赶上了 ChatGPT 的实力;
  • 数据质量远比数据数量重要;
  • 与开源 AI 竞争的成果,必定是失利;
  • 比起开源社区需求 Google,Google 更需求开源社区。

已然开源才是出路,那么现在的开源格局是什么样?

不识庐山真面目,只缘身在此山中。

我花了不少时刻,收拾一张图,包括各方发展,LLM之间的错综复杂,让我们看到更大的视界。

图分4块:

  • ① 国外基座LLM: 介绍国外可用的开源基座模型
  • ② LLaMA生态系统:各方对LLaMA的魔改
  • ③ 国内开源LLM:清华ChatGLM及其他开源LLM
  • ④ LLM练习结构:练习加快技巧、练习结构

ChatGPT复现: 三步走+大模型进化图谱

注:以上信息不全,仅供参考,欢迎反应。

① 国外基座大模型

ChatGPT复现: 三步走+大模型进化图谱

OpenAI官方模型里,除了GPT-2可用,其它模型(ChatGPT/GPT-4)只能远观,并作为大模型比赛里的标杆供人崇拜、仰视、跟从。

多数人连api调用权限都没有,更不用说理论方法、权重、数据和代码了。

极客安排EleutherAI建立没多久,就先后推出GPT-Neo、GPT-J和GPT-NeoX模型,开源数据集 Pile,并发布OpenChatKit,颇有开源霸主风仪。Pythia是耶鲁大学与EleutherAI协作的产物,Dolly(多莉)是DataBrick根据Pythia发布的谈天LLM。

法国科研安排发布的BLOOM很有用: 176b, 多言语,免费商用,属于非英语国家LLM开发者的首选。2023年2月底推出指令微调版别BLLOMZ。

协作推出BLOOM的闻名LLM渠道HuggingFace也没闲着,推出了自己的谈天LLM:HuggingChat

相似的开源安排,还有Stable AI,推出Stable LM。

阿联酋TII组织发布的Falcon猎鹰)一度霸占了测评榜单,拔得头筹。当然评测存在疑点。国内组织闻风而动,6月9日,OpenBuddy将其汉化,并集成AI画图,6月14日,深圳大学Linly(伶荔)团队扩充中文词表。

②LLaMA生态系统

自从权重走漏以来,不到一个月,一系列改善版“呈现”:指令调整、量化、质量改善、人类评价、多模态和 RLHF 等等变体。每个版别距离才几天时刻,进化速度如此之快。

ChatGPT复现: 三步走+大模型进化图谱

“羊驼”家族进化概况

  • 3月14日,斯坦福根据self-instruct指令集完结SFT
  • 3月21日,斯坦福凭借LoRA技能,进一步降低了练习成本;5月26日,LoRA进化版别QLoRA呈现,单机练习持续减量、加快
  • 3月23日,第一个免GPU版别的羊驼诞生,直接CPU单机部署,4月12日,GPT4All能够额在笔记本部署
  • 3月31日,伯克利引进更多数据,开源FastChat,并推出评测榜LMSYS
  • 4月12日,引进CoT数据,提升推理能力
  • 羊驼汉化上,先后呈现骆驼、Linly-ChatFlow、ChatLLaMA和玉兰
  • 5月3日,第一个可商用的LLaMA呈现,OpenLLaMA
  • META自己也在研讨RLHF的必要性,推出LIMA

③国内开源大模型

ChatGPT复现: 三步走+大模型进化图谱

国内LLM

  • 2月20日,复旦第一个尝鲜,推出MOSS
  • 随后,诞生一批ChatGPT跟从者,文心一言、科大讯飞、通义千问等
  • ChatGPT复现: 三步走+大模型进化图谱
  • 详见评测:千模大赛哪家强?大言语模型中文评测实践

开源LLM上

  • 坐拥亚洲仅有上榜LLM(GLM)的清华优势很大,先后推出ChatGLM、ChatGLM-6B以及多模态版别Visual-GLM。
  • 但是,这些模型商用受限,于是清华NLP实验室背景的面壁智能推出CPM系列,从ant到bee、Luca,功用掩盖画图、插件、联网、应用市场,颇有OpenAI的影子,重要的是,这些彻底开源。
  • 校企协作是个好路子,一个有底子有人,一个有钱有数据。4月13日推出的知乎“知海图”根据CPM,5月23日推出的“360智脑”根据ChatGLM。
  • 别的,也有不少自给自足的。智源社区推出“天鹰”,王小川的百川智能,中科院的“紫东太初”(不开源),纯RNN的ChatRWKV。

④练习技巧及结构

练习技巧上,LoRA系列名声最大,其次是量化、蒸馏、联邦学习。

  • LoRA低秩适配,QLoRA将量化引进进来。
  • 现在,LoRA系列现已成为言语、图画等范畴的标配
  • 5月15日,康奈尔将量化(GPTQ)引进微调结构
  • 5月31日,港科大发布闭源模型的蒸馏结构(LION, AKD)
  • 6月6日,FATE社区发布联邦学习大模型,处理隐私、数据缺乏问题

练习结构上

  • ColossalAI起步较早,2月15日就发布三步流程结构(其时没有SFT,后边补齐)
  • 开源结构还有:Open Assistant、Trlx等
  • 微软的DeepSpeed范围最广,4月12日,还推出掩盖三步流程的DeepSpeed Chat
  • 各方还在研讨三步走的合理性,有没有更好的计划。如:港科大发布练习结构LLMFlow,北大河狸改善RLHF,使用更好的SafeRLHF。

概况

(5)跋文

开源大模型许多很全,迭代速度太快,只需1天不看资讯,就会漏掉最新发展。

这对大模型从业者来说,挑战极大。

ChatGPT复现专题文章才开端,不确定能否按期写完。

个人能力、精力有限,欢迎我们查缺补漏,

  • 公众号版别
  • 技能博客