继续创作，加快成长！这是我参加「日新方案 10 月更文应战」的第23天，点击检查活动概况

机器学习方针：查准率、召回率等

留意力机制（Attention Mechanism）

编码器阶段，LSTM对整句话进行编码，得到一个中心编码C。留意力机制，则是对针对不同的单词选用生成不同的中心编码C1，C2等。

参阅：留意力机制根本原理

GNN的变体与结构

GCN的呈现带动了将神经网络技术运用到图数据的学习使命中去的一大类办法，为了该处一个涵盖更广范围的界说，一般总称这类办法为图神经网络，即Graph Nerual Networks（GNN）。

GCN本质上便是一个迭代式地聚合街坊的进程，这启发了一大类模型关于这种聚合操作的从头规划，大大增强了GNN关于图数据的适应性。根据这些规划的解构，一些GNN的通用表达结构被相继提出。

这些变体与结构都是为了更好地表明节点的特征（包含节点的特点信息和结构信息）。

GraphSAGE（Graph SAmple and aggreGatE）图采样和聚合

GraphSAGE能够看作是GCN的一个改进。

GCN只能学习图中已有节点的表明，换句话说，GCN是整张图的节点一同练习的，用到了拉普拉斯矩阵，关于没有在练习进程中呈现过的节点，GCN无法表明。节点的表明相对固定，当添加新的节点时需求对全图进行从头练习才干得到每个节点的新的表明。

思路转换：已然新增的节点，一定会改动原有节点的表明，那么为何一定要得到每个节点的一个固定的表明呢？何不直接学习一种节点的表明办法。这样不论graph怎样改动，都能够很容易地得到新的表明。

关于GCN的问题，GraphSAGE选用采样街坊和聚合街坊的办法进行改进。

先决常识

概括学习（Inductive　Learning）：概括学习是指在练习阶段见不到的数据（在图数据中，能够指新节点，也能够指新的图）直接进行预测而不需求从头练习的办法。

转导学习（Transductive Learning）：转导学习是指一切的数据在练习阶段都能够拿到，学习进程是作用在这个固定的数据上的，一旦数据发生改变，需求进行从头学习练习。典型的比方图形上的随机游走算法，一旦图数据发生改动，一切节点的表明学习都需求从头进行。

参阅：Transductive Learning和Inductive Learning区别

采样街坊

在GCN模型中，练习办法是一种全图办法，即一轮迭代，一切节点样本的丢掉只会奉献一次梯度数据，无法进行小批量更新，效率较低。且在许多实践事务场景中，图的规划往往十分巨大。

GCN存在问题：

子图的节点数存在呈指数级增加的问题。
真实国际中图数据节点的度往往呈现幂律散布，加上节点数呈指数级增加，核算代价十分高。

GraphSAGE从聚合街坊的操作动身，对街坊进行随机采样来控制实践运算时节点k阶子图的数据规划，在此基础上对采样的子图进行随机组合来完结小批量市的练习。

GraphSAGE采样：

设每个节点在第k层的街坊采样倍率为S_k（该参数是GraphSAGE的超参数，由用户自行规划和调节），即每个节点采样的一阶街坊的个数不超越S_k，那么关于恣意一个中心节点的表达核算，所触及的总节点数将在阶乘级别以下。

例如关于一个两层的模型来说，S1=3，S2=2，则总的节点数不超越1+3+3*2=10个，远远小于选用GCN采样街坊节点的个数，下降核算量。这儿对节点采样，GraphSAGE选择了均匀散布，能够根据实践选择其它办法的散布来替代均匀散布。

聚合街坊

聚合操作需求满意的条件：

聚合操作有必要要对聚合节点的数量做到自适应，不论节点的街坊数量怎样改变，聚合操作后的输出的维度有必要是一致的，一般是一个统一长度的向量。
聚合操作对聚合节点具有摆放不变性，即无论街坊节点的摆放顺序怎么，聚合操作的输出结果是相同的。

常用的简略聚合操作算子：

（1）**均匀聚合：**先对街坊embedding中每个维度取均匀，然后与方针节点embedding拼接后进行非线性转换。v是中心节点，u是街坊节点，h是节点特征，W是聚合操作需求学习的参数。

（2）**概括式聚合：**直接对方针节点和一切街坊emebdding中每个维度取均匀，后再非线性转换：

（3）**LSTM聚合：**LSTM函数不符合“排序不变量”的性质，需求先对街坊随机排序，然后将随机的街坊序列embedding作为LSTM输入。

（4）**Pooling聚合器：**先对每个街坊节点上一层embedding进行非线性转换（等价单个全衔接层，每一维度代表在某方面的表明（如信用状况）），再按维度运用 max/mean pooling，捕获街坊集上在某方面的杰出的／综合的表现以此表明方针节点embedding。

GraphSAGE算法进程

算法思路：先将小批调集B内的中心节点聚合所要触及的k阶子图一次性悉数遍历出来，然后在这些节点上进行K次聚合操作的迭代核算。

1、首要作者给出了不引进minibatch的练习算法：

伪代码：

算法很简略，便是普通GCN节点聚合传达的算法。第5行作者选用了前面提到的均匀聚合办法，并选用了拼接处理。第7行对节点的表明进行了归一化（单位向量）。别的能够看出，为了进行inductive learning，作者不再是学习每个节点的表明，而是学习一系列的聚合函数（Aggregate_k），而且节点的输入不再是one-hot，而是节点的特征表明向量x_v。这样关于不知道节点，能够把它的节点特征和它的街坊节点经过学习好的聚合函数进行聚合，就能够得到不知道节点的表明。不引进minibatch每次更新参数都要在整张图上进行核算，耗时耗空间。

2、引进minibatch的练习算法：

伪代码：

这儿是在一个batch中进行参数更新的操作，B是需求更新的一批节点调集。在每次batch更新之前，首要需求找出此次batch更新需求用到的节点调集。1-7行描绘了这一进程，因为要聚合K次，所以需求K+1个节点结合，B_0~B_k，B_k−1是B_k和对B_k中节点的街坊节点采样得到的并集（3-5行）。求节点的街坊节点并不是利用悉数的街坊节点，而是对街坊节点进行了采样，采样的节点数固定，假如节点的街坊数大于采样数，则选用均匀不放回采样；否则选用均匀放回采样。

聚合进程如上图所示，伪代码中的8~15行是从底层到顶层进行聚合操作，第11行是调用聚合操作完结对每个节点街坊特征的整合输出，12行是将聚合后的街坊特征与中心节点上一层的特征进行拼接，然后送到一个单层网络里边得到中心节点新的特征向量，13行对节点的特征向量进行归一化处理，将一切节点的向量都统一到单位尺度上。对这3行操作迭代K次就完结了对B内一切节点特征向量的提取。

第K层是最顶层，1层是最底层，所以采样时是从第顶层到底层去找街坊节点，聚合时从底层到顶层逐层进行聚合。

GraphSAGE全程完全没有拉普拉斯矩阵的参加，每个节点的学习仅仅只与其K阶街坊有关，不需求考虑全图的结构信息。关于新呈现的节点数据，只需求便当得到k阶子图，就能够带入模型进行预测，因为聚合函数现已学习到了。

参阅：图神经网络——GraphSAGE

参阅：我寻思GCN也没我厉害 – 知乎

参阅：GraphSAGE: GCN落地必读论文

小结

GCN学习得到的是每个节点固定的表明，需求大局节点参加到其间（运算的进程顶用到了拉普拉斯矩阵），所以每次有新节点的时分就需求从头进行练习，得到新的一切节点的表明。

GraphSAGE学习得到的是一个聚合函数，经过这个聚合函数来取得节点的表明，即只需求中心节点的K阶子图就能得到该中心节点的表明，练习进程中不需求拉普拉斯矩阵的参加。所以，关于一个新的节点只需求知道该节点的街坊，然后经过聚合函数就能得到该节点的表明，不需求整张图参加到其间。

图留意力网络（Graph Attention Networks，GAT）

图留意力网络经过留意力机制来对街坊节点做聚合操作，完成了对不同街坊权重的自适应分配，然后大大进步了图神经网络模型的表达能力。

留意力机制

留意力机制的中心在于对给定信息进行权重分配，权重高的信息意味着需求系统进行要点加工。留意力机制的数学表达式如下图所示。

如图所示，Source是需求系统处理的信息源，Query代表某种条件或者先验信息，Attention Value是给定Query信息的条件下，经过留意力机制从Source中提取得到的信息。此刻给定Target中的某个元素Query，经过核算Query和各个Key的类似性或者相关性，得到每个Key对应Value的权重系数，然后对Value进行加权求和，即得到了终究的Attention数值。所以本质上Attention机制是对Source中元素的Value值进行加权求和，而Query和Key用来核算对应Value的权重系数。留意力机制的界说如下：

聚焦的进程体现在权重系数的核算上，权重越大越聚焦于其对应的Value值上，即权重代表了信息的重要性，而Value是其对应的信息。

传统神经网络学习的参数，比方W是一切节点同享的参数，而留意力机制学习的权重是针对单个节点的，不同节点的权重是不同的。

图留意力层

根据留意力机制的三大要素：Query、Source、Attention Value，将Query设置为当前中心节点的特征向量，将Source设置为一切街坊的特征向量，将Attention Value设置为中心节点经过聚合操作后的新的向量。

界说如下：设图中恣意节点 v_i 在第L层所对应的特征向量为 h_i，经过一个以留意力机制为中心的聚合操作后，输出的是每个节点新的特征向量 h_i‘ 。一般将这个操作称为图留意力层（Graph Attention Layer，GAL）。

假定中心节点为V_i，则街坊节点V_j到V_i的权重系数为：e_ij=a(Wh_i,Wh_j)，W是该层节点特征改换的参数，a()是核算两个节点相关度的函数。原则上咱们能够核算图中恣意一个节点到节点V_i的权重系数，这儿为了简化核算，将其约束在一阶街坊内。

留意力机制权重系数的核算公式如下：

依照留意力机制加权求和的思路，节点V_i新的特征向量为：

留意：一切街坊节点同享一个参数矩阵W

假如不运用留意力机制，那么对每一个街坊节点h的特征向量都选用相同的W相乘（或者其他核算），再进行激活更新得到新的节点特征，这时每个街坊节点对中心节点的奉献是相同的。
添加了留意力机制之后便是，虽然每一个街坊节点h的特征向量都是和同一个W相乘（或者是其他核算），可是每个节点又别离乘了一个不同的权重系数a，这时每个街坊节点对中心节点的奉献是不同的。

多头留意力层

进一步提升留意力层的表达能力，能够参加多头留意力机制（multi-head attention），即对节点调用K组彼此独立的留意力机制，然后将输出的结果拼接在一同：

||表明拼接操作，**a_k_ij **是K组留意力机制核算出的权重系数，W_k是对应的学习参数。

多头留意力机制核算流程如下图所示

图留意力机制也保存了十分完整的局部性，也能够进行概括学习。

参阅：留意力机制——博客园

参考：Attention原理＋长处

R-GCN

常识图谱

一种典型的包含多种联系的图数据便是常识图谱（Knowledge Graph）。常识图谱是一种规划十分巨大的语义网络，其首要作用是描绘通用或专用场景下实体间的关联联系，首要运用场景为搜多引擎、语音帮手、智能问答等。

常识图谱构建所依靠的中心技术是信息抽取与常识构建。该技术旨在从大规划非结构化的自然语言文本中抽取结构化信息，决定了常识图谱可继续扩增的能力。

R-GCN

R-GCN根据GCN的街坊聚合操作，又增加了一个聚合联系的维度，使得节点的聚合操作变成一个两层聚合操作，中心公式如下：

GCN考虑的是同构图（节点和边的类型只有一种）建模，节点之间只存在一种联系，因而GCN只需求一组权重参数来对节点的特征进行改换。

R-GCN考虑的是异构图（节点或边的类型多于一种）建模，考量联系的因素对街坊进行分类操作：关于每一种联系的街坊引进不同的权重参数，别离对属于同一联系类型的街坊聚合之后，再进行一次总的聚合。进程如下图所示：

上图中先对同种联系的街坊进行独自聚合，这儿考虑了联系的正反方向，一同关于本身参加了自衔接的联系，将一切不同联系的街坊聚合之后，再进行一次总的聚合。

常识图谱中往往存在很多的联系，假如为每一组联系规划一组权重，那么R-GCN需求学习的参数量将十分巨大，因而提出了一种对W_r进行基分化（basic decomposition）的方案，即：

a_rb是W_r再V_b上的分化系数，B是超参数，控制着V_b的个数，经过上式W_r变成了一组基的线性加和。

GNN通用结构

所谓的通用结构便是对多种变体GNN网络结构的一般化总结。

音讯传达神经网络（Message Passing Neural Network，MPNN）

经过音讯传递机制对多种GNN模型做出了一般化总结。根本思路为：节点的表明向量都是经过音讯传递函数M（Message）和更新函数U（Update）进行K轮音讯传达机制迭代后得到的，音讯传达进程如下：

h表明节点特征，e_ij表明边<v_i,v_j>上的特征向量，k次表明第k次音讯传达。

MPNN核算示意图：

上图中并没有对边的表明向量进行迭代更新，假如有必要（比方边具有重要意义的时分）能够与节点相同，对边的向量始终维护一个状况向量。

MPNN的中心在于音讯函数和更新函数，原则上能够把它规划成恣意一种DNN模型。如下：

非局部神经网络（Non-Local Nerual Network，NLNN）

NLNN是对留意力机制的一般化总结，经过non-local操作将恣意方位的输出响应核算为一切方位特征的加权和。通用的non-local如下：

ｉ是输出方位的索引，j是枚举一切或许方位的索引。f(x_i,x_j)是i方位和j方位上元素之间的相关度函数，g(x_j)表明对输入x_j进行改换的改换函数，1/C(x)用于归一化。

NLNN的中心也在两个函数：f和g，一般运用线性改换函数作为函数g：g(x_j)=W_gh_j，W_g是需求学习的权重参数。

f一般选择：

内积：两个节点特征的内积
全衔接：运用输出为一维标量的全衔接层界说f
高斯函数

图网络（Craph Network，GN）

GN相较于MPNN和NLNN做出了更一般的总结。根本核算包含三个元素：节点状况 h_i，边的状况 e_ij，图的状况 u。并规划了3个更新函数、3个聚合函数，详细如下：

GN的更新思路：由点更新边，边聚合更新点，点聚合与边聚合更新图，这儿更新的时分还需求考虑上一轮本身的状况。

上述的更新进程并不是一成不变的，能够从大局动身到每个节点，再到每条边。

别的全图状况u的初始值，能够看成是图的某种固有特点或者先验常识的编码向量。假如去除这个全图状况的维护，GN就退化成了一个维护边状况的的MPNN。

GN的更新进程如下：

图分类

图分类是一个重要的图层面的学习使命，图分类需求关注图数据的大局信息，包含图的结构信息和特点信息。

给定多张图，以及每张图的标签，图分类使命便是经过学习得出一个由图到相应标签的图分类模型，模型的要点在于怎么经过学习得出一个优秀的全图表明向量。

和CNN类似，都需求对大局信息进行交融学习，CNN中一般选用层次化池化（Hierarchical Pooling）机制来逐渐提取大局信息。

根据大局池化的图分类

前文介绍的MPNN，除了为图中节点的表明学习提出了一般结构外，还规划了一个读出（readout）机制对经过K轮迭代的一切节点进行一次性聚合操作，然后输出图的大局表明：

与读出机制类似的一种做法是，引进一个与一切节点相连的虚拟节点，将全图的表明等价与这个虚拟节点的表明。

读出机制的缺陷：

读出机制本质上是将数据看作一种平坦且规则的结构数据，将一切的节点都同等看待，这样处理丢掉了图数据里边丰厚的结构信息。

从这个角度看，读出机制更适合对小图数据的学习。

一方面小图数据中的结构信息相对单一
一方面是因为经过K轮音讯传达机制的迭代之后，图中各个节点的表达愈加接近大局表达，此刻读出机制能更好的提取大局信息

根据层次化池化的图分类

一般有三类：

根据图坍缩（Graph Coarsening）的池化机制
根据TopK的池化机制
根据边缩短（Edge Contraction）的池化机制

根据图坍缩（Graph Coarsening）的池化机制

图坍缩

图坍缩便是将图中的节点区分为几个节点簇（子图），将每个节点簇看作一个超级节点，然后构成一个坍缩的图，并作为下一次图坍缩的节点。图坍缩与GNN结合进程：

图坍缩中触及到两个重要矩阵：簇分配矩阵S和采样矩阵C，详见下图

DIFFPOOL

DIFFPOLL是首个将图坍缩进程与GNN结合起来进行图层面使命学习的算法。

详解如下：

DIFFPOOL机制经过一个GNN为每个节点学习出所属各个簇的概率散布，节点以概率的办法分配到每一个簇中，属于软分配机制

参阅：DIFFPOOL——一种图网络的层次化办法

EigenPooling

EigenPooling也是一种根据图坍缩的池化机制，EigenPooling没有对图分类模型引进任何需求学习的参数。

对两个进程进行介绍：

１、图坍缩

EigenPooling的思路是借用一些图分区的算法完成图的区分，比方选用谱聚类算法。谱聚类是一类比较典型的聚类算法，其根本思路是先将数据改换到特征空间以凸显更好的区分度，然后执行聚类算法（比方选用K-means算法进行聚类），算法的输入是邻接矩阵和簇数K，输出的是每个节点所属的簇。运用K-means算法进行聚类，那么簇的分配便是一种硬分配，每个节点仅能属于一个簇，这种硬分配机制保持了图坍缩之后的超级节点之间衔接的稀少性。

２、池化操作

确定了子图区分以及相应的邻接矩阵后，对每个子图中的信息进行整合抽取。

DIFFPOOL中选择了对节点特征进线性加和，但这种办法丢掉了子图的结构信息。

EigenPooling则选用子图上的图信号在该子图上的傅里叶改换来代表结构信息与特点信息的整合输出。

总的来说，EigenPooling作为一种不带参数的池化机制，能够很方便的整合到一般的GNN模型中，完成对图信息的层次化抽取学习。

根据TopK的池化机制

TopK池化机制和图坍缩不同，图坍缩是将图的节点不断聚合成簇的进程，而TopK是一个不断抛弃节点的进程，详细来说便是设置一个超参数k，其间k的取值范围为(0,1)，接着学习出表明节点重要度的值z，并依照重要度对节点进行降序排序，然后将全图中N个节点下采样至最重要的kN个节点，公式表明如下：

X’表明依照向量i的值对特征矩阵进行行切片，A‘表明依照向量i的值对邻接矩阵一同进行行切片与列切片。

关于重要度 z 的核算，这儿引进了一个大局基向量 **p **将节点向量在该向量上的投影作为重要度：

相较于根据图坍缩的池化机制对图中一切节点不断交融学习的进程，gpool层采取层层丢弃节点的做法来进步远间隔节点的交融效率，可是这种做法会短少对一切节点进行有用信息交融的手法。根据此，文中选择在gpool层之后添加要给读出层，完成对该尺度下的图的大局信息的一次性聚合。读出层的详细完成办法便是将大局均匀池化与大局最大池化拼接起来：

终究为了得到全图的表明，将各层的 s 相加：

一种参阅模型：

该模型设置了两层gpool层，对应设置了两个读出层，再对两层读出层进行加和得到全图的向量表明。

关于丢弃节点的池化机制：自留意力求池化（SAGPool），该办法运用GNN对节点的重要度进行学习。

根据边缩短（Edge Contraction）的池化机制

根本思路：迭代式地对每条边上的节点进行两两归并构成一个新的节点，一同胞瘤兼并前两个节点的衔接联系到新节点上。

关于存在多条边的状况，EdgePool对每条边规划了一个分数，根据该分数进行非重复式的选择与兼并，详细操作：

首要关于每条边核算一个原始分数：

核算进程如下：

核算办法参阅：TopK池化机制分数核算

小结：

正是利用了边缩短的原理，EdgePool仅将附近的街坊节点进行归并，这样做的长处：节点的交融都是从边进行的，这符合了图的结构信息，愈加合理。

参阅：图神经网络池化操作

根据GNN的图表明学习

图表明学习

一般运用邻接矩阵A表明图的结构信息，但A往往是一个高维且稀少的矩阵，难以运用相关的机器学习模型处理。

图表明学习的首要方针便是将图数据转化为一种低维稠密的向量化表明，一同保证图数据的某些性质在向量空间中也能够得到对应。

一种图数据的表明假如能够包含丰厚的语义信息，那么下流的相关使命就能得到适当优秀的输入特征，一般在这种状况下，咱们直接用线性分类器对使命进行学习。

图表明学习进程如下：

图表明学习的两个重要作用：

将图数据表明成线性空间中的向量。从工程上而言，这种向量化的表明为拿手处理线性结构数据的核算机系统提供了极大的便当。
为之后的学习使命奠定基础。图数据的学习使命品种繁多，有节点层面的，边层面的，还有全图层面的，一个好的图表明学习办法能够统一高效地辅佐这些使命的相关规划与学习。

图表明学习办法：

根据分化的图表明学习
根据游走的图表明学习
根据深度学习的图表明学习

根据分化的图表明学习

在早期，图节点的嵌入学习一般是根据分化的办法，这些办法经过对描绘图数据结构信息的矩阵进行矩阵分化，将节点转化到低维向量空间中去，一同保存结构上的类似性。这种描绘结构信息的矩阵比方有邻接矩阵，拉普拉斯矩阵，节点类似度矩阵。一般来说，这类办法均有解析解，可是因为结果依靠于相关矩阵的分化核算，因而，这类办法具有很高的时刻复杂度和空间复杂度。

类似于转换到频域上进行核算。

根据游走的图表明学习

假如两个词向量之间的间隔近，那么它们对应的词就具有越高的语义类似性，这种思维即word2vec。中心思维便是：附近（词向量间隔近）即类似（语义类似）。

Word2Vec的思维放到图(graph)上来说也是类似的，考虑图中的边表类似联系，假如两个结点之间的途径越短，则意味着这两个结点之间的类似度越高。

将图中随机游走发生的序列看作句子，节点看作词，比照词向量办法学习出节点的表明，主动地学习结点特征，生成隐含表明(latent representation)。典型办法有DeepWalk、Node2Vec等。

DeepWalk

在DeepWalk中经过运用随机游走(RandomWalk)的办法在图中进行节点采样来模仿语料库中的语料，从而运用word2vec的办法学习出节点的共现联系。

RandomWalk是一种可重复拜访已拜访节点的深度优先遍历算法。随机取起始点，规定途径长度，从其街坊中随机采样节点作为下一个拜访节点，重复此进程，直到拜访序列长度满意预设条件。

随机游走的好处：

并行性：显然能够一同开多个walker从不同结点动身进行游走
适应性：能够轻松应对动态网络，一旦有网络结构更新，只需有足够多的walker进行从头采样，就能够对其嵌入表明进行更

DeepWalk算法首要包含两个进程，第一步为随机游走采样节点序列，第二步为运用skip-gram model学习表达向量。

伪代码：

输入为图G，窗口巨细w，表明向量巨细d，总的迭代次数y，游走序列长度t

1行初始化节点向量矩阵。4行是打乱节点（词汇表），生成一个随机排序来遍历一切节点。5~8行关于每一个节点进行随机游走取得游走序列，并运用Skip-Gram模型练习。6行运用随机游走算法取得游走序列。7行运用Skip-Gram模型进行练习，取得节点的向量表明。

参阅：从入门DeepWalk到实践Node2vec

参阅：【Graph Embedding】DeepWalk：算法原理及运用

参阅：图表明学习——图嵌入

参阅：生动讲解deepwalk

Node2Vec

DeepWalk一个很明显的缺陷便是它均匀地对每个结点的街坊进行采样，这样会形成其无法很好控制其拜访的街坊，因而node2vec的最大改进之处便是将采样办法给参数化了。

办法化地来说，关于每一源结点u∈V，界说其由采样战略S得到的街坊为Ns(u)⊂V（这儿一定要留意，采样战略得到的街坊并不一定是直接街坊，后面会再论述），期望在给定嵌入表明的前提下，最大化该街坊呈现的概率，即：

详细内容参照从入门DeepWalk到实践Node2vec中的Node2Vec部分。

参阅：【Graph Embedding】node2vec——知乎

参阅：图表明学习——图嵌入

参阅：图表明学习极简教程——知乎

参阅：图表明学习——斯坦福

根据GNN的图表明学习

根据重构丢掉的GNN

这一部分能够参照前文的表明学习中的根据重构丢掉的表明学习部分的内容。

类比自编码器的思路，将节点之间的邻接联系进行重构学习，能够界说如下的图自编码器：

其间，Z 是一切节点的表明，这儿借助 GNN 模型一同对图的特点信息与结构信息进行编码学习。A^ 是重构之后的邻接矩阵，这儿运用了向量的内积来表明节点之间的邻接联系。图自编码器的重构丢掉能够界说如下：

因为过滑润的问题，GNN 能够轻易地将相邻节点学习出类似的表达，这就导致解码出来的邻接矩阵 A^ 能够很快趋近于原始邻接矩阵 A，模型参数难以得到有用优化。因而，为了使 GNN 习得愈加有用的数据散布式表明，同自编码器相同，咱们有必要对丢掉函数加上一些束缚方针。比方添加噪声：

对原图数据的特征矩阵 X 适当增加随机噪声或置零处理；
对原图数据的邻接矩阵 A 删除适当比例的边，或者修正边上的权重值。

别的也能够借鉴变分自编码器的规划思路。

根据比照丢掉的GNN

类比于词向量，咱们将比照丢掉的落脚点放到词与上下文上。词是表明学习的研究主体，在这儿，自然代表的是图数据中的节点了，上下文代表的是与节点有对应联系的对象。一般，从小到大，图里的上下文顺次能够是节点的街坊、节点所处的子图、全图。作为节点与上下文之间存在的固有联系，咱们期望评分函数进步节点与上下文对的得分，一同下降节点与非上下文对的得分。用式子表明如下：

c 表明上下文的表明向量，c 表明非上下文的表明向量。

顺次比较丢掉函数在不同上下文时的办法：

1、街坊作为上下文

假如把街坊作为上下文，那么上述比照丢掉就在建模节点与街坊节点的共现联系。在 GraphSAGE 的论文中就描绘了这样的一种无监督学习办法，与 DeepWalk 相同，咱们能够将在随机游走时与中心节点 vi 一同呈现在固定长度窗口内的节点 vj 视为街坊，一同经过负采样的手法，将不符合该联系的节点作为负样本。与 DeepWalk 不相同的是，节点的表明学习模型还是运用 GNN，即：

这儿的 pn是一个关于节点呈现概率的负采样散布，得分函数运用了向量内积加 sigmoid 函数，将分数约束在[0, 1]内。这个办法在优化方针上与图自编码器根本同等，可是这种负采样办法的比照优化，并不需求与图自编码器相同显式地解码出邻接矩阵 A^，因为 A^ 损坏掉了原始邻接矩阵的稀少性，因而该办法不需求承当 O(N2) 的空间复杂度。

2、将子图作为上下文

将街坊作为上下文时，着重的是节点之间的共现联系，这种共现联系更多反应了图中节点间的远近间隔，缺少对节点结构类似性的捕捉。而一般节点局部结构上的类似性，是节点分类使命中一个比较关键的因素[9]。比方图上两个相距很远的节点假如具有相同的子图结构，根据共现联系的建模办法就难以有用刻画这种结构上的对等性。因而，论文[10]就提出了直接将子图作为一种上下文进行比照学习。详细子图的界说如图所示：

关于一个中心节点，如图 3，图中的赤色节点所示，咱们用一个 GNN 在其 K 阶子图上提取其表明向量，一同咱们将处于中心节点 r1-hop 与 r2-hop 之间的节点界说为该中心节点的上下文锚点，如图 3 所示。设 K=2、r1=1、r2=4，咱们用另一个 GNN 来提取每个节点作为上下文锚点时的表明向量，一同为了得到一个总的，固定长度的上下文表明向量，将运用读出机制来聚合上下文锚点的表明向量。式子表明如下：

3、全图作为上下文

节点与全图之间的比照丢掉的学习机制详细做法如下：

首要为了得到负采样的样本，需求对图数据进行相关扰动，得到（Xcurrupt,Aaurrupt）。然后将这两组图数据送到同一个 GNN 模型中进行学习。为了得到图的大局表明，运用读出机制对局部节点的信息进行聚合。进程示意图如下：

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

深入浅出图神经网络：GNN原理解析——下

留意力机制（Attention Mechanism）

GNN的变体与结构

GraphSAGE（Graph SAmple and aggreGatE）图采样和聚合

先决常识

采样街坊

聚合街坊

GraphSAGE算法进程

小结

图留意力网络（Graph Attention Networks，GAT）

留意力机制

图留意力层

多头留意力层

R-GCN

常识图谱

R-GCN

GNN通用结构

音讯传达神经网络（Message Passing Neural Network，MPNN）

非局部神经网络（Non-Local Nerual Network，NLNN）

图网络（Craph Network，GN）

图分类

根据大局池化的图分类

根据层次化池化的图分类

根据图坍缩（Graph Coarsening）的池化机制

图坍缩

DIFFPOOL

EigenPooling

根据TopK的池化机制

根据边缩短（Edge Contraction）的池化机制

根据GNN的图表明学习

图表明学习

根据分化的图表明学习

根据游走的图表明学习

DeepWalk

Node2Vec

根据GNN的图表明学习

根据重构丢掉的GNN

根据比照丢掉的GNN

近期文章

近期评论