当地时刻 4 月 12 日,微软宣告开源 DeepSpeed-Chat,协助用户轻松练习类 ChatGPT 等大言语模型。

据悉,Deep Speed Chat 是依据微软 Deep Speed 深度学习优化库开发而成,具有练习、强化推理等功用,还运用了 RLHF(依据人类反应的强化学习)技能,可将练习速度提高 15 倍以上,而本钱却大大下降。

如下图,一个 130 亿参数的类 ChatGPT 模型,练习时刻只需要 1.25 小时。

微软开源“傻瓜式”类ChatGPT模型训练工具,成本大大降低,速度提升15倍

简略来说,用户只需要通过 Deep Speed Chat 供给的 “傻瓜式” 操作,就能以最短的时刻、最高效的本钱练习类 ChatGPT 大言语模型。

开源地址:

github.com/microsoft/D…

使 RLHF 练习真正在 AI 社区普及

近来,ChatGPT 及类似模型引发了 AI 职业的一场风潮。ChatGPT 类模型可以履行概括、编程、翻译等使命,其结果与人类专家适当乃至更优。为了可以使普通数据科学家和研究者可以愈加轻松地练习和部署 ChatGPT 等模型,AI 开源社区进行了各种测验,如 ChatLLaMa、ChatGLM-6B、Alpaca、Vicuna、Databricks-Dolly 等。

然而,现在业内依然缺少一个支撑端到端的依据人工反应机制的强化学习(RLHF)的规模化体系,这使得练习强大的类 ChatGPT 模型好不简单。

例如,运用现有的开源体系练习一个具有 67 亿参数的类 ChatGPT 模型,一般需要贵重的多卡至多节点的 GPU 集群,但这些资源对大多数数据科学家或研究者而言难以获取。一起,即便有了这样的核算资源,现有的开源体系的练习功率一般也达不到这些机器最大功率的 5%。

简而言之,即便有了贵重的多 GPU 集群,现有处理方案也无法轻松、快速、经济的练习具有数千亿参数的最先进的类 ChatGPT 模型。

与常见的大言语模型的预练习和微调不同,ChatGPT 模型的练习依据 RLHF 技能,这使得现有深度学习体系在练习类 ChatGPT 模型时存在种种局限。

微软在 Deep Speed Chat 介绍文档中表明,“为了让 ChatGPT 类型的模型更简单被普通数据科学家和研究者运用,并使 RLHF 练习真正在 AI 社区普及,咱们发布了 DeepSpeed-Chat。”

据介绍,为了完成无缝的练习体验,微软在 DeepSpeed-Chat 中整合了一个端到端的练习流程,包含以下三个主要过程:

微软开源“傻瓜式”类ChatGPT模型训练工具,成本大大降低,速度提升15倍
图|DeepSpeed-Chat 的具有可选功用的 RLHF 练习流程图(来历:GitHub)

  • 监督微调(SFT),运用精选的人类回答来微调预练习的言语模型以应对各种查询;

  • 奖赏模型微调,运用一个包含人类对同一查询的多个答案打分的数据集来练习一个独立的(一般比 SFT 小的)奖赏模型(RW);

  • RLHF 练习,运用 Proximal Policy Optimization(PPO)算法,依据 RW 模型的奖赏反应进一步微调 SFT 模型。

在过程 3 中,微软供给了指数移动均匀(EMA)和混合练习两个额外的功用,以协助提高模型质量。依据 InstructGPT,EMA 一般比传统的最终练习模型供给更好的呼应质量,而混合练习可以协助模型保持预练习基准处理才能。

整体来说,DeepSpeed-Chat 具有以下三大中心功用:

1.简化 ChatGPT 类型模型的练习和强化推理体验:只需一个脚本即可完成多个练习过程,包含运用 Huggingface 预练习的模型、运用 DeepSpeed-RLHF 体系运转 InstructGPT 练习的所有三个过程、乃至生成你自己的类 ChatGPT 模型。此外,微软还供给了一个易于运用的推理API,用于用户在模型练习后测试对话式交互。

2.DeepSpeed-RLHF 模块:DeepSpeed-RLHF 复刻了 InstructGPT 论文中的练习形式,并保证包含 SFT、奖赏模型微谐和 RLHF 在内的三个过程与其一一对应。此外,微软还供给了数据笼统和混合功用,以支撑用户运用多个不同来历的数据源进行练习。

3.DeepSpeed-RLHF 体系:微软将 DeepSpeed 的练习(training engine)和推理才能(inference engine) 整合到一个一致的混合引擎(DeepSpeed-HE)中用于 RLHF 练习。DeepSpeed-HE 可以在 RLHF 中无缝地在推理和练习形式之间切换,使其可以运用来自 DeepSpeed-Inference 的各种优化,如张量并行核算和高性能 CUDA 算子进行言语生成,一起对练习部分还能从 ZeRO- 和 LoRA-based 内存优化策略中受益。此外,DeepSpeed-HE 还能主动在 RLHF 的不同阶段进行智能的内存管理和数据缓存。

高效、经济、扩展性强

据介绍,DeepSpeed-RLHF 体系在大规模练习中具有超卓的功率,使复杂的 RLHF 练习变得快速、经济并且易于大规模推广。

详细而言,DeepSpeed-HE 比现有体系快 15 倍以上,使 RLHF 练习快速且经济实惠。例如,DeepSpeed-HE 在 Azure 云上只需 9 小时即可练习一个 OPT-13B 模型,只需 18 小时即可练习一个 OPT-30B 模型。这两种练习别离花费不到 300 美元和 600 美元。

此外,DeepSpeed-HE 也具有杰出的扩展性,其可以支撑练习具有数千亿参数的模型,并在多节点多 GPU 体系上展现出杰出的扩展性。因而,即便是一个具有 130 亿参数的模型,也只需 1.25 小时就能完结练习。而对于参数规模为 1750 亿的更大模型,运用 DeepSpeed-HE 进行练习也只需不到一天的时刻。

别的,此次开源有望完成 RLHF 练习的普及化。微软表明,仅凭单个 GPU,DeepSpeed-HE 就能支撑练习超越 130 亿参数的模型。这使得那些无法运用多 GPU 体系的数据科学家和研究者不只可以轻松创立轻量级的 RLHF 模型,还能创立大型且功用强大的模型,以应对不同的运用场景。

那么,人手一个专属 ChatGPT 的时代,还有多远?

参阅链接:

github.com/microsoft/D…