微软大模型新架构,正式向Transformer建议挑战!

论文标题明晃晃地写道:

Retentive Network(RetNet):大模型范畴Transformer的继任者。

Transformer后继有模!MSRA提出全新大模型基础架构:推理速度8倍提升,内存占用减少70%

论文提出新的Retention机制来代替Attention。来自微软亚研院和清华的研究人员,毫不讳言“野心”,大胆放话:

RetNet完成了良好的扩展成果、并行练习、低本钱布置和高效推理。

这些特性使这一基础架构,成为大言语模型中Transformer的有力继承者。

而实验数据也显现,在言语建模任务上:

  • RetNet能够到达与Transformer适当的困惑度(perplexity)
  • 推理速度达8.4倍
  • 内存占用削减70%
  • 具有良好的扩展性

并且当模型巨细大于一定规划时,RetNet体现会优于Transformer。

Transformer后继有模!MSRA提出全新大模型基础架构:推理速度8倍提升,内存占用减少70%

Transformer果真“后继有模”了?详细详情,一同来看。

处理“不行能三角”

Transformer在大言语模型中的重要性毋庸置疑。无论是OpenAI的GPT系列,还是谷歌的PaLM、Meta的LLaMA,都是根据Transformer打造。

但Transformer也并非白璧无瑕:其并行处理机制是以低效推理为代价的,每个步骤的复杂度为O(N);Transformer是内存密集型模型,序列越长,占用的内存越多。

在此之前,大家也不是没想过继续改善Transformer。但首要的几种研究方向都有些捉襟见肘:

线性attention能够下降推理本钱,但功能较差;

循环神经网络则无法进行并行练习。

也就是说,这些神经网络架构面前摆着一个“不行能三角”,三个角代表的别离是:并行练习、低本钱推理和良好的扩展功能。

Transformer后继有模!MSRA提出全新大模型基础架构:推理速度8倍提升,内存占用减少70%

RetNet的研究人员想做的,就是化不行能为可能。

详细而言,RetNet在Transformer的基础上,使用多规范坚持(retention)机制代替了规范的自注意力机制

与规范自注意力机制比较,坚持机制有几大特色:

引进方位相关的指数衰减项替代softmax,简化了核算,一起使前步的信息以衰减的方式保存下来。

引进复数空间表达方位信息,替代肯定或相对方位编码,容易转换为递归方式。

别的,坚持机制使用多规范的衰减率,增加了模型的表达能力,并使用GroupNorm的缩放不变性来提高retention层的数值精度。

Transformer后继有模!MSRA提出全新大模型基础架构:推理速度8倍提升,内存占用减少70%
RetNet的双重表明

每个RetNet块包括两个模块:多规范坚持(MSR)模块和前馈网络(FFN)模块。

坚持机制支持以三种方式表明序列:

  • 并行
  • 递归
  • 分块递归,即并行表明和递归表明的混合方式,将输入序列划分为块,在块内按照并行表明进行核算,在块间遵从递归表明。

其中,并行表明使RetNet能够像Transformer一样高效地使用GPU进行并行练习。

递归表明完成了O(1)的推理复杂度,下降了内存占用和推迟。

分块递归则能够更高效地处理长序列。

这样一来,RetNet就使得“不行能三角”成为可能。以下为RetNet与其他基础架构的对比成果:

Transformer后继有模!MSRA提出全新大模型基础架构:推理速度8倍提升,内存占用减少70%

在言语建模任务上的实验成果,进一步证明了RetNet的有效性。

成果显现,RetNet能够到达与Transformer类似的困惑度(PPL,评价言语模型好坏的目标,越小越好)。

一起,在模型参数为70亿、输入序列长度为8k的情况下,RetNet的推理速度能到达Transformer的8.4倍,内存占用削减70%

在练习过程中,RetNet在内存节省和加速效果方面,也比规范Transformer+FlashAttention体现更好,别离到达25-50%7倍

值得一提的是,RetNet的推理本钱与序列长度无关,推理推迟对批量巨细不敏感,答应高吞吐量。

Transformer后继有模!MSRA提出全新大模型基础架构:推理速度8倍提升,内存占用减少70%

别的,当模型参数规划大于20亿时,RetNet的体现会优于Transformer。

Transformer后继有模!MSRA提出全新大模型基础架构:推理速度8倍提升,内存占用减少70%

研究团队

RetNet的研究团队,来自微软亚研院和清华大学

一起一作为孙宇涛和董力。

孙宇涛,清华大学核算机系本科,现在在微软亚研院实习。

董力,微软亚研院研究员。他也是此前引发很多重视的“能记住10亿token的Transformer”的论文作者之一。

Transformer后继有模!MSRA提出全新大模型基础架构:推理速度8倍提升,内存占用减少70%

RetNet论文的通讯作者是韦福如。他是微软亚洲研究院全球研究合伙人,10亿token Transformer亦是来自他的研究团队。

论文地址:
arxiv.org/abs/2307.08…