基于Transformer的大模型是如何运行的？Meta从全局和上下文学习揭秘

本文旨在更好地了解依据 Transformer 的大型言语模型（LLM）的内部机制，以提高它们的可靠性和可解释性。

跟着大型言语模型（LLM）在运用和部署方面的不断添加，打开黑箱并了解它们的内部工作原理变得越来越重要。更好地了解这些模型是怎么做出决策的，这对改善模型和减轻其故障（如幻觉或推理过错）至关重要。

众所周知，最近 LLM 成功的一个重要因素是它们能够从上下文中学习和推理。LLM 对这些上下文的学习才能通常归功于 Transformer 架构，特别是自留意力块的运用，其能够细心挑选输入序列，从而推理出可信的下一个 token。此外，猜测或许需求大局知识，如语法规矩或一般事实，这些或许不会出现在上下文中，需求存储在模型中。

咱们不由会疑问，为什么依据 Transformer 的模型非常擅长运用它们的上下文来猜测新的 token，这种才能是怎么在练习中发生的？带着这些问题，来自 Meta AI 的研讨者进行了深入的研讨。他们经过研讨合成设置下 Transformer 的学习机制，揭示了其大局和上下文学习的平衡，并将权重矩阵解释为联想回忆，为了解和优化 Transformer 供给了根底。

论文地址：arxiv.org/pdf/2306.00…

首要要了解的是在练习过程中 Transformer 是怎么发现这些才能的。为此，该研讨引入了一个合成数据集，该数据集由二元言语模型生成的序列组成。然后，模型需求依托上下文学习来对特定的二元序列进行杰出的猜测，而大局二元能够依据当时 token 的大局计算数据进行猜测。尽管单层的 Transformer 无法可靠地猜测上下文二元，但该研讨发现经过开发感应头（induction head）机制的双层 Transformer 取得了成功，即拥有两个留意力头的 circuit，其允许 Transformer 从上下文 [・・・, a, b,・・・, a] 中猜测 b，而且在 Transformer 言语模型中似乎无处不在。这种感应头（induction head）机制在 Transformer 言语模型中是普遍存在的，而且取得了成功。

更进一步的，为了更好的了解上下文机制是怎样出现在练习过程中的，该研讨在随机初始化时冻结了一些层（包括嵌入和值矩阵）来进一步简化模型架构。这样一来研讨重点转移到留意力和前馈机制，同时避免了学习表征的困难。与此同时，这种简化还为单个权重矩阵引入了一个天然模型作为联想回忆。天然模型能够经过它们的外积存储输入 – 输出或键 – 值对嵌入。随机高维嵌入由于其挨近正交性而特别适合这种观念。

总结而言，该研讨的贡献可归纳为：

本文引入了一种新的合成设置来研讨大局和上下文学习：序列遵循二元言语模型，其中一些二元在序列中改变，而另一些不会。
本文将 Transformer 的权重矩阵视为学习存储特定嵌入对的联想回忆，并以此为任务推导出一个简化但更可解释的模型。
本文对练习动态进行了细致的实证研讨：首要学习大局二元，然后以自上而下的方式学习适当的回忆，构成感应头。
本文给出了练习动力学的理论见地，展现了怎么经过在噪声输入中找到信号，在种群损失上进行一些自上而下的梯度过程来恢复所需的联想回忆。

办法介绍

接着该研讨介绍了合成数据设置，这样能够细心研讨感应头机制在练习过程中的开展以及 Transformer 怎么学习运用上下文信息的。

双元数据模型：模型序列由一个通用的双元言语模型（即马尔可夫链）组成，每个序列的生成方式如下：

下图 2 可视化了测验序列上的留意力求，这表明该模型现已学习了感应头机制。

接着该研讨介绍了 Transformer 联想回忆观念：因为几乎正交的嵌入，权重矩阵表现为联想回忆，将成对的嵌入存储为其外积的加权和。研讨引入了一个具有固定随机嵌入的简化 Transformer 模型，将用这种想法发生对学习动力学的精确了解。

此外，该研讨提出了一个有用的观念，将 Transformer 中的模型权重视为高维嵌入向量的联想回忆。感应头机制能够经过以下外积矩阵作为回忆来取得，而其他所有权重则固定为随机初始化状态：

实验

图 3 研讨了在迭代 300 次之前冻结不同层对练习动态的影响。

大局 vs 上下文学习。从图 4（左 / 右）能够看出，当联合练习所有层时，大局二元计算的学习速度往往比感应头更快，这能够从前期迭代中的 loss 和 KL 的快速下降中看出。

此外，从图 4（左）中看到，数据散布的改变会对上下文机制的学习速度发生严重影响。该研讨观察到以下状况或许会使上下文学习减慢：(i) 较少数量的触发器 K， (ii) 仅运用少有的固定触发器，以及 (iii) 运用随机触发器而不是固定触发器。

该研讨还在图 4（中间）中显现，在练习时将输出 token 散布更改为二元散布会下降准确率，这表明，运用更多样化的练习散布能够发生具有更好泛化准确率的模型，而且只需少数的额定练习成本。

更多研讨内容，请参阅原论文。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

基于Transformer的大模型是如何运行的？Meta从全局和上下文学习揭秘

近期文章

近期评论