ERNIE-Layout是百度提出的跨模态文档了解模型,依托文心ERNIE,根据布局常识增强技能,融合文本、图画、布局等信息进行联合建模,可以对多模态文档(如文档图片、PDF文件、扫描件等)进行深度了解与分析,为各类上层运用提供SOTA模型底座。

主要创新

目的:增加Layout信息以及更好的组合文本(Text)、图画(Image)、布局(Layout)的特征信息。

  • 输入:输入在序列化阶段,重新组织了输入序列(主要是次序),引入了布局常识增强,融合文本、图画、布局等信息进行跨模态联合建模
  • 预训练任务:提出阅览次序猜测、细粒度图文匹配等自监督预训练任务
  • 模型:为了提高对Layout的感知能力,提出了一个Spatial-Aware disentangled Attention(空间解耦注意力机制)

输入

Text Embedding

ERNIE-Layout详解

  • token embedding
  • 1D position embedding
  • token type embedding

Visual Embedding

ERNIE-Layout详解

  • image embedding:先运用Fast-RCNN作为Encoder,图片resize为224224,得到77的feature,flaten之后经过F_vs(.)线性变换之后作为image embedding
  • position embedding(1D)
  • token type embedding(符号类型)

Layout Embedding

ERNIE-Layout详解

  • Text Layout:OCR东西获取每个token的(x0, y0, x1, y1, w, h)
  • Visual layout:OCR东西获取每个image segment的(x0, y0, x1, y1, w, h)

如何组合:

ERNIE-Layout详解

模型

Deberta中Disentangled Attention

ERNIE-Layout详解

模型还是采用了Transformer的结构,可是根据Deberta改进了Transformer的注意力机制,名为Spatial-aware Disentangled Attention Mechanism(空间感知接耦注意力机制),首先先介绍一下Deberta中的Disentangled Attention Mechanism,传统的Transformer的注意力机制中如下图所示,方位信息是经过在输入embedding中加入postion embedding, pos embedding与token embeding和segment embedding混在一起,在早期加入方位信息令模型在核算self-attention时,方位信息被弱化。

ERNIE-Layout详解

  • : input hidden vectors,self-attention的输入
  • : output of self-attention, self-attention的输出
  • : projection matrices, 映射矩阵
  • : attention matrix,注意力矩阵
  • N是输入序列的长度,d是hidden states的维度

ERNIE-Layout详解

Disentangled Attention Mechanism引入了一个相对方位编码,比如将方位信息拆分出来,独自编码, 然后和token(content) embedding求attention,增加核算 “方位-内容” 和 “内容-方位” 注意力的Disentangled Attention。

ERNIE-Layout详解

ERNIE-Layout详解

左面紫色框中的是传统注意力中的Q、K、V,即内容相关的;右面蓝色框中是方位相关的:

: the relative position embedding vectors , 相对方位编码embedding向量矩阵

: projection matrices

: token i 到 j 的 Attention Score

: 的第 行

: 的第 行

这儿的P是一个相对方位编码矩阵,这儿的2k是怎么来的呢,假定 k 是最大相对间隔,(i,j) 是 token i 到 j 的相对方位,定义如下,k默认是 512,也就是说相对间隔的范围从 -512 到 512, P就是将i和j之间的相对方位(数字)映射成为d维的向量。

ERNIE-Layout详解

Spatial-aware Disentangled Attention Mechanism

有了上面Deberta的根底,Ernie-layout就比较好了解了,上面Deberta只有token的相对方位,Ernie-layout里设置了3个方位【1D方位、2D x轴、2D y轴】,设置了3个向量来嵌入表明这三个相对方位,分别是:

ERNIE-Layout详解

在looking up embedding表之后,一系列投影矩阵将这些相对方位向量以及内容向量映射为 Q K V,注意力解耦为四个部分:

ERNIE-Layout详解

最终,所有这些注意力分数被求和,得到注意力矩阵 A。经过缩放和归一化操作

ERNIE-Layout详解

ERNIE-Layout详解

预训练任务

阅览次序猜测

序列化成果由多个文本片段组成,包括一系列单词和2D坐标。该论文提出了阅览次序猜测(ROP),期望注意力矩阵A带着有关阅览次序的常识。赋予了Aij额外的含义,即第i个符号的下一个符号是第j个符号的概率。此外,真值矩阵G(就是标注)是一个0-1矩阵,其间1表明两个符号之间存在阅览次序联系,反之亦然。Loss用交叉熵核算,把attention赋予token j是否是i的下一个阅览次序。标签是 0-1 矩阵G, 1 为两个token是阅览次序,反之则为0。

ERNIE-Layout详解

替换区域猜测

随机挑选10%的图块,并用另一张图画中的图块替换,猜测哪些图块是被替换的

ERNIE-Layout详解

其间 Gi 表明被替换补丁的标签,Pi 表明猜测的归一化后的概率。

Masked Visual-Language Modeling

和一般的MLM相同,mask 一些token,并猜测被mask的token。不同之处在于不mask掉layout信息,这代表着猜测mask token时,模型知道方位信息。此外,为了避免视觉信息泄漏mask答案,对原始页面图画上对应于被掩蔽符号的图画区域进行掩蔽

文本-图画对齐

随机挑选了一些文本行,并在文档图画上掩盖它们对应的区域。然后,引入了一个分类层来猜测每个文本符号是否被掩盖。

ERNIE-Layout详解