• 展现神经符号编程的力气

使用 PyNeuraLogic 超越 Transformers

1. 简介

在过去的几年里,咱们看到了根据 Transformer 的模型的鼓起,并在天然语言处理或核算机视觉等许多领域取得了成功的应用。在本文中,咱们将探索一种简洁、可解释和可扩展的办法来表达深度学习模型,特别是 Transformer,作为混合架构,即经过将深度学习与符号人工智能结合起来。为此,咱们将在名为 PyNeuraLogic 的 Python 神经符号结构中完成模型。

将符号表明与深度学习相结合,添补了当时深度学习模型的空白,例如开箱即用的可解释性或缺少推理技能。也许,增加参数的数量并不是完成这些预期成果的最合理办法,就像增加相机百万像素的数量纷歧定会产生更好的照片一样。

使用 PyNeuraLogic 超越 Transformers

PyNeuraLogic 结构根据逻辑编程——逻辑程序包括可微分的参数。该结构十分适合较小的结构化数据(例如分子)和复杂模型(例如 Transformers 和图形神经网络)。另一方面,PyNeuraLogic 不是非联系型和大型张量数据的最佳挑选。

该结构的要害组成部分是一个可微分的逻辑程序,咱们称之为模板。模板由以抽象办法定义神经网络结构的逻辑规矩组成——咱们可以将模板视为模型架构的蓝图。然后将模板应用于每个输入数据实例,以生成(经过基础和神经化)输入样本独有的神经网络。这个过程与其他具有预定义架构的结构彻底不同,这些结构无法针对不同的输入样本进行自我调整。

2. Symbolic Transformers

使用 PyNeuraLogic 超越 Transformers

咱们通常倾向于将深度学习模型完成为对批处理成一个大张量的输入令牌的张量操作。这是有道理的,因为深度学习结构和硬件(例如 GPU)通常针对处理更大的张量而不是形状和巨细不同的多个张量进行了优化。 Transformers 也不例外,通常将单个符号向量表明批处理到一个大矩阵中,并将模型表明为对此类矩阵的操作。但是,这样的完成躲藏了各个输入符号怎么彼此相关,这可以在 Transformer 的注意力机制中得到证明。

3. Attention 机制

注意力机制构成了一切 Transformer 模型的中心。具体来说,它的经典版别运用了所谓的多头缩放点积注意力。让咱们用一个头(为了清楚起见)将缩放的点积注意力分解成一个简略的逻辑程序。

使用 PyNeuraLogic 超越 Transformers

注意力的目的是决定网络应该重视输入的哪些部分。注意经过核算值 V 的加权和来完成,其间权重表明输入键 K 和查询 Q 的兼容性。在这个特定版别中,权重由查询 Q 和查询的点积的 softmax 函数核算键 K,除以输入特征向量维数 d_k 的平方根。

(R.weights(V.I, V.J) <= (R.d_k, R.k(V.J).T, R.q(V.I))) | [F.product, F.softmax_agg(agg_terms=[V.J])],
(R.attention(V.I) <= (R.weights(V.I, V.J), R.v(V.J)) | [F.product]

在 PyNeuraLogic 中,咱们可以经过上述逻辑规矩充分捕捉注意力机制。第一条规矩表明权重的核算——它核算维度的平方根倒数与转置的第 j 个键向量和第 i 个查询向量的乘积。然后咱们用 softmax 聚合给定 i 和一切或许的 j 的一切成果。

然后,第二条规矩核算该权重向量与相应的第 j 个值向量之间的乘积,并对每个第 i 个符号的不同 j 的成果求和。

4. Attention Masking

在练习和评估期间,咱们通常会约束输入令牌可以参与的内容。例如,咱们想约束符号向前看和重视行将到来的单词。流行的结构,例如 PyTorch,经过屏蔽完成这一点,行将缩放的点积成果的元素子集设置为某个十分低的负数。这些数字强制 softmax 函数将零指定为相应符号对的权重。

(R.weights(V.I, V.J) <= (
    R.d_k, R.k(V.J).T, R.q(V.I), R.special.leq(V.J, V.I)
)) | [F.product, F.softmax_agg(agg_terms=[V.J])],

运用咱们的符号表明,咱们可以经过简略地增加一个身体联系作为约束来完成这一点。在核算权重时,咱们约束第 j 个目标小于或等于第 i 个目标。与掩码相反,咱们只核算所需的缩放点积。

使用 PyNeuraLogic 超越 Transformers

5. 非标准 Attention

当然,象征性的“掩蔽”可以是彻底任意的。咱们大多数人都听说过根据稀疏变换器的 GPT-3⁴(或其应用程序,例如 ChatGPT)。⁵ 稀疏变换器的注意力(跨步版别)有两种类型的注意力头:

  • 一个只重视前 n 个符号 (0 ≤ i − j ≤ n)
  • 一个只重视每第 n 个前一个符号 ((i − j) % n = 0)

两种类型的头的完成都只需要细小的改动(例如,关于 n = 5)。

(R.weights(V.I, V.J) <= (
    R.d_k, R.k(V.J).T, R.q(V.I),
    R.special.leq(V.D, 5), R.special.sub(V.I, V.J, V.D),
)) | [F.product, F.softmax_agg(agg_terms=[V.J])],
(R.weights(V.I, V.J) <= (
    R.d_k, R.k(V.J).T, R.q(V.I),
    R.special.mod(V.D, 5, 0), R.special.sub(V.I, V.J, V.D),
)) | [F.product, F.softmax_agg(agg_terms=[V.J])],

使用 PyNeuraLogic 超越 Transformers

咱们可以走得更远,将对相似图形(联系)输入的注意力进行概括,就像在联系注意力中一样。⁶ 这种类型的注意力在图形上运行,其间节点只重视它们的邻居(由边连接的节点)。查询 Q、键 K 和值 V 是边嵌入与节点向量嵌入相加的成果。

(R.weights(V.I, V.J) <= (R.d_k, R.k(V.I, V.J).T, R.q(V.I, V.J))) | [F.product, F.softmax_agg(agg_terms=[V.J])],
(R.attention(V.I) <= (R.weights(V.I, V.J), R.v(V.I, V.J)) | [F.product],
R.q(V.I, V.J) <= (R.n(V.I)[W_qn], R.e(V.I, V.J)[W_qe]),
R.k(V.I, V.J) <= (R.n(V.J)[W_kn], R.e(V.I, V.J)[W_ke]),
R.v(V.I, V.J) <= (R.n(V.J)[W_vn], R.e(V.I, V.J)[W_ve]),

在咱们的例子中,这种类型的注意力与之前显现的缩放点积注意力几乎相同。仅有的区别是增加了额外的术语来捕获边缘。将图作为注意力机制的输入好像很天然,这并不奇怪,因为 Transformer 是一种图神经网络,作用于彻底连接的图(未应用掩码时)。在传统的张量表明中,这并不是那么显着。

6. Encoder

现在,当咱们展现 Attention 机制的完成时,构建整个 transformer 编码器块的缺失部分相对简略。

咱们已经在 Relational Attention 中看到了怎么完成嵌入。关于传统的 Transformer,嵌入将十分相似。咱们将输入向量投影到三个嵌入向量中——键、查询和值。

R.q(V.I) <= R.input(V.I)[W_q],
R.k(V.I) <= R.input(V.I)[W_k],
R.v(V.I) <= R.input(V.I)[W_v],

查询嵌入经过越过连接与注意力的输出相加。然后将生成的向量归一化并传递到多层感知器 (MLP)。

(R.norm1(V.I) <= (R.attention(V.I), R.q(V.I))) | [F.norm],

关于 MLP,咱们将完成一个具有两个躲藏层的全连接神经网络,它可以优雅地表达为一个逻辑规矩。

(R.mlp(V.I)[W_2] <= (R.norm(V.I)[W_1])) | [F.relu],

最后一个带有规范化的越过连接与前一个相同。

(R.norm2(V.I) <= (R.mlp(V.I), R.norm1(V.I))) | [F.norm],

咱们已经构建了构建 Transformer 编码器所需的一切部分。解码器运用相同的组件;因而,其施行将是相似的。让咱们将一切块组合成一个可微分逻辑程序,该程序可以嵌入到 Python 脚本中并运用 PyNeuraLogic 编译到神经网络中。

R.q(V.I) <= R.input(V.I)[W_q],
R.k(V.I) <= R.input(V.I)[W_k],
R.v(V.I) <= R.input(V.I)[W_v],
R.d_k[1 / math.sqrt(embed_dim)],
(R.weights(V.I, V.J) <= (R.d_k, R.k(V.J).T, R.q(V.I))) | [F.product, F.softmax_agg(agg_terms=[V.J])],
(R.attention(V.I) <= (R.weights(V.I, V.J), R.v(V.J)) | [F.product],
(R.norm1(V.I) <= (R.attention(V.I), R.q(V.I))) | [F.norm],
(R.mlp(V.I)[W_2] <= (R.norm(V.I)[W_1])) | [F.relu],
(R.norm2(V.I) <= (R.mlp(V.I), R.norm1(V.I))) | [F.norm],

总结

在本文中,咱们剖析了 Transformer 架构并演示了它在名为 PyNeuraLogic 的神经符号结构中的完成。经过这种办法,咱们可以完成各种类型的 Transformer,只需对代码进行细小的更改,说明每个人都可以怎么快速转向和开发新颖的 Transformer 架构。它还指出了各种版别的 Transformers 以及带有 GNN 的 Transformers 的显着相似之处。

本文由mdnice多平台发布