本文旨在更好地了解依据 Transformer 的大型言语模型(LLM)的内部机制,以提高它们的可靠性和可解释性。

跟着大型言语模型(LLM)在运用和部署方面的不断添加,打开黑箱并了解它们的内部工作原理变得越来越重要。更好地了解这些模型是怎么做出决策的,这对改善模型和减轻其故障(如幻觉或推理过错)至关重要。

众所周知,最近 LLM 成功的一个重要因素是它们能够从上下文中学习和推理。LLM 对这些上下文的学习才能通常归功于 Transformer 架构,特别是自留意力块的运用,其能够细心挑选输入序列,从而推理出可信的下一个 token。此外,猜测或许需求大局知识,如语法规矩或一般事实,这些或许不会出现在上下文中,需求存储在模型中。

咱们不由会疑问,为什么依据 Transformer 的模型非常擅长运用它们的上下文来猜测新的 token,这种才能是怎么在练习中发生的?带着这些问题,来自 Meta AI 的研讨者进行了深入的研讨。他们经过研讨合成设置下 Transformer 的学习机制,揭示了其大局和上下文学习的平衡,并将权重矩阵解释为联想回忆,为了解和优化 Transformer 供给了根底。

基于Transformer的大模型是如何运行的?Meta从全局和上下文学习揭秘

论文地址:arxiv.org/pdf/2306.00…

首要要了解的是在练习过程中 Transformer 是怎么发现这些才能的。为此,该研讨引入了一个合成数据集,该数据集由二元言语模型生成的序列组成。然后,模型需求依托上下文学习来对特定的二元序列进行杰出的猜测,而大局二元能够依据当时 token 的大局计算数据进行猜测。尽管单层的 Transformer 无法可靠地猜测上下文二元,但该研讨发现经过开发感应头(induction head)机制的双层 Transformer 取得了成功,即拥有两个留意力头的 circuit,其允许 Transformer 从上下文 [・・・, a, b,・・・, a] 中猜测 b,而且在 Transformer 言语模型中似乎无处不在。这种感应头(induction head)机制在 Transformer 言语模型中是普遍存在的,而且取得了成功。

更进一步的,为了更好的了解上下文机制是怎样出现在练习过程中的,该研讨在随机初始化时冻结了一些层(包括嵌入和值矩阵)来进一步简化模型架构。这样一来研讨重点转移到留意力和前馈机制,同时避免了学习表征的困难。与此同时,这种简化还为单个权重矩阵引入了一个天然模型作为联想回忆。天然模型能够经过它们的外积存储输入 – 输出或键 – 值对嵌入。随机高维嵌入由于其挨近正交性而特别适合这种观念。

总结而言,该研讨的贡献可归纳为:

  • 本文引入了一种新的合成设置来研讨大局和上下文学习:序列遵循二元言语模型,其中一些二元在序列中改变,而另一些不会。
  • 本文将 Transformer 的权重矩阵视为学习存储特定嵌入对的联想回忆,并以此为任务推导出一个简化但更可解释的模型。
  • 本文对练习动态进行了细致的实证研讨:首要学习大局二元,然后以自上而下的方式学习适当的回忆,构成感应头。
  • 本文给出了练习动力学的理论见地,展现了怎么经过在噪声输入中找到信号,在种群损失上进行一些自上而下的梯度过程来恢复所需的联想回忆。

办法介绍

接着该研讨介绍了合成数据设置,这样能够细心研讨感应头机制在练习过程中的开展以及 Transformer 怎么学习运用上下文信息的。

双元数据模型:模型序列由一个通用的双元言语模型(即马尔可夫链)组成,每个序列的生成方式如下:

基于Transformer的大模型是如何运行的?Meta从全局和上下文学习揭秘

下图 2 可视化了测验序列上的留意力求,这表明该模型现已学习了感应头机制。

基于Transformer的大模型是如何运行的?Meta从全局和上下文学习揭秘

接着该研讨介绍了 Transformer 联想回忆观念:因为几乎正交的嵌入,权重矩阵表现为联想回忆,将成对的嵌入存储为其外积的加权和。研讨引入了一个具有固定随机嵌入的简化 Transformer 模型,将用这种想法发生对学习动力学的精确了解。

此外,该研讨提出了一个有用的观念,将 Transformer 中的模型权重视为高维嵌入向量的联想回忆。感应头机制能够经过以下外积矩阵作为回忆来取得,而其他所有权重则固定为随机初始化状态:

基于Transformer的大模型是如何运行的?Meta从全局和上下文学习揭秘

实验

图 3 研讨了在迭代 300 次之前冻结不同层对练习动态的影响。

基于Transformer的大模型是如何运行的?Meta从全局和上下文学习揭秘

大局 vs 上下文学习。从图 4(左 / 右)能够看出,当联合练习所有层时,大局二元计算的学习速度往往比感应头更快,这能够从前期迭代中的 loss 和 KL 的快速下降中看出。

此外,从图 4(左)中看到,数据散布的改变会对上下文机制的学习速度发生严重影响。该研讨观察到以下状况或许会使上下文学习减慢:(i) 较少数量的触发器 K, (ii) 仅运用少有的固定触发器,以及 (iii) 运用随机触发器而不是固定触发器。

该研讨还在图 4(中间)中显现,在练习时将输出 token 散布更改为二元散布会下降准确率,这表明,运用更多样化的练习散布能够发生具有更好泛化准确率的模型,而且只需少数的额定练习成本。

基于Transformer的大模型是如何运行的?Meta从全局和上下文学习揭秘

更多研讨内容,请参阅原论文。