译 / 笑翟


摘要

布局是任何图形规划的根本组成部分。创立很多合理的文档布局或许是一项繁琐的使命,需求满意许多束缚,包含触及不同语义元素和对一般外观和间距的大局束缚。在本文中,咱们提出了一j B K f k g K y个新的结构, 创立了 READ,用于文档的递归主动编码器,以生成很多和多种文档的合理的 2! g : $ –D 布局。

首要,咱们规划一种探究性递L } v /归办法提取单个文档的结构分化。运用符号的鸿沟框注释的文档数据集,咱们的递归神经网络学习将以简略层次结构的办法给出的结构标明映射到紧凑的代码,其空间由高斯散布近似。能够从这个空间采样新的层次结构,` w @然后取得新的文档布局。

此外,咱们
引进一种组合衡量来衡量文档布局之间的结构相似性。咱们将其布置以显现咱们的办法能够产生高度可变和逼真的
布局。咱们进一步演示了生成的布局在文档上的规范检测使命的上下文中的实用性,标明当运用READ生成布局的生成文档扩大练习数据时检测功用会提高。

1.布景介绍

图1. 给出了一组练习示例 — 中心的带注释的实在文档布局 (如左边是可填充办法) – 右侧是用咱们的办法生成相似于练习数据中的组成布局,用独特的颜色符号是语义符号区域。

“Do not read so much, look about you and think of what you see ther) # G # 3e2 Y d O _ + X S j.= G T O” -Richard Feynman

布局W P q关于有用的沟通和引起一个人的视觉注意力。从报纸文章中、杂志、学术手稿、网站等各种其他文件办法,布局规划跨越了很多的实在世界文件分类,并遭到最重要的编辑考虑。可是H F # | : j r,尽管过去几年研讨社区r h M z . ( 2在生成图像 [7,19],音频 [18] 和 3D 内容 [10,12,28,29] 的新颖样本方面的兴趣日益增长,很少有人重d L 6 = { z 5 l视,致力于大型种类的主动生成,合理的文档布局。组成新颖的布局,
首要有必要处理两个根本问题,什么文档布局的适宜标明办法是什么?鉴于上述情况,怎么组成新的布局?

清晰处理这些问题的榜首项作业莉6 Z c等人 [11] 最近的布局,它运用生成对立网络 (GAN) [5. 3 $ B T 2 $ U D] 来处理布局生成。他们展现了在组成多u ] ~ L ~ L :达 9 个元素的看似合理的文档布局方面令人形象深入的成果,这些元素在文档中标明为z i l q z 1 ( B *鸿沟框。可是,各种类型的高度结构化的文档能够具有适W ( * * 3 b R当数量的元素-高达数十甚至数百。此外,他们的练习数据构成了大约 25k 的注释文W o b S X i S * J档,关于各种类型的文档来说,这或许很难取得。因而出现了两个天然问题: 是否能够规划一种生成办法来组成具有很多实体的高度结t h z n j ? . g 5构化布局?是否有或许在不需求很多练习数据的情况下生成组成文档布局?? J (

图 2. 咱们的 RvNN-VAE 结构概述。练习层次结构是为数据会集的每个文档构建的。这些层次结构被映射到一个紧凑的代码 (依^ V N QE y j 9 y符号为红色的编码器网络,以递归的办法),其空间j Y S M P
近似为高斯散布。新的层次结构能够从这个空间中采样 (并依据
解码器网络符号为蓝色),取得新的文档布局。

在这项作业中,咱们肯P . N u定地答复了两个问题。结构化: p Y b 4 b层次结构与人类对文档布局的了解是天然和共同的。因而,咱们提出了 READ: 一个生成递归神经网络 (RvNN),它能_ K 2 M M @ H够适当地模仿这种结构化数据。咱们的办法能够生成很多合理的布局,包含密集且高度可变的实体组,仅运用几百个注释文档。运用咱V ! |们的办法,能够依据图 2 所示的管道,在几分之一秒内从高斯提取的随机向量生成新的文档布局。

给定带注释文档的数r r H – q M }据集,其间单个文档由一组带标签的鸿沟框组成,咱们首要构建文档层次结构,这些层次结构树立在其语义元素的连通性和隐式对称性之上。. K E 9 , @ ] # O这些层次结构或树以递归自下而上的办法映射到紧凑的代码标明办法。经过练习变分主动编码器 (VAE),将生成的固定长度编码不同长度的树的代码束缚为大致遵从高斯散布。新的文档布局能够经过递归解码器网络生成,该网络将随机采样的代p f d u f码从学习的散布映射到完整的文档层次结构。

为了评价咱们生成的布局,咱们引进了一种新的组合衡量 (DocSim),用于丈量结构化多维实体之间的布局相似 ` s V C性,以文档为首要示例。咱们运用主张的衡量来b ~ y h Z标明咱们的办法能够生成代表其练习的文档潜在散布的布局。由于研讨组成数据生成办法的首要动机之一源于它们作为深度神经网络练习数据的有用性,咱们还考虑了一个规范的文档剖析使命。咱们用归纳生成的文档来d k Q添加可用的练习数据,这些文档的布局是由 READ 生成的,并证明咱们的增强功用提高了上述C / h l x # U / cj = Z { K档剖析使命的网络功用。

2.相关作业

剖析文档中实体之间的结构性质和联系是信息检索领域的一个? * M h 3 * o , 0根本性应战。尽管像0 C B ` ~ i 4 p 光学字符识别} F $ (Oi m / V – QCR) 这样的本地使命现已以非常高的精度得到了处理,可是文档布局的大局和高度可变的性质使得它们的剖析变得愈加难以捉摸。

前期关于结构文m E C p w – G , /档剖析的作业首要依赖于各种类型的专门定制的办法和启发式办法 (e.g.,+ 0 ] Y ! H S g ? [2,3,8,17] 最近的作业标明,依据深度学习的办法显著提高了8 Q _ g n B剖析的质量;U % i @ ~ ; & 6 例如,参见 Yang 等人 [31] 的作业,它运用联合文C q P ! A本和视觉标明,将布局剖析视为像素切割使命。

这种依据现代深A u 3 s `度学习的办法一般需求很多高质量的练习数据( J S c 1 D M g A,这需求适宜的办法来归纳生成具有实在布局 [11] 和内容 [13] 的文档。咱们的作业继续进行组成布局生成的研讨,标明咱们的组成数据能够有用地添加文档剖析使命的练习数据。

维护布局的牢靠标明已被证明在各种图形规划上下文中很有用,这些上下文一般触及高度结构化和内容丰富的方针K P 6 O。最相关作业咱们最近 LayouN m o ` = + L ? ntGAN 的莉等人 [11],旨在生成现实文件布局运用生成对立网络 (Gn J # GAN) 线框1 H p ^ ) + + #渲染层。郑等人 [32] 在生成文档时也采用. i 9 s 5 0 J 5 Q了依据 GAN 的结构,可[ M z 2是,他们的作业首要会集在 contentaware 生成上,运用文档的内容作为额外的先验。

与卷积神经网络 (CNNs) 不同,卷积神经[ * |网络 (CNNs) 在大维向量上操作并触及多个多通道变换,在咱们的作业中,p R L ] G F咱们运用递归神经网络,它对低维向量进行操作,并运用两层感知器兼并任何两个向量。因而,它们在核算上更便宜,而且能够从几个练习样本中学习。

Deka 等人 [4] 运用主动编G g | B 6 C B 5码器执行布局相似性查找,以简化移动应用程序的 UI 规划。Ritchie 等人 [22] 提出了一个规划探究工& ] g ? B (具,用于相似网页的布局和依据内容的检索。O ‘donovan 等人 [16] 提出了一个交互式的依据能量的模型,答应新手规划师改善他们的页面布局规划。Swearngin 等人 [26] 应用布局剖析以答应规划者操作从屏幕截图中取得的布局。更根本的是,Talton 等人 [27] 运用从数据中学习到的视觉结构和文本办法来取得答应概率生成新的、相似的实体的正式语法。

递归7 @ Q W =神经网络 (RvNN) 由 Socher– h S g 9 | ) f u 等人 [24,25] 首次引进,用于解析天然场景和天然语言语句。Socher 等人 [23] 全面介绍了 RvNNs 在核算机视觉中各种使命的应用。可是,RvNNs 并没有像 CNNs 那样遭到重视,直到最近,RvNNs 与生成模型的耦合被证明在曾经未探究的范例上有用地* r 6 a { :作业,例如生成 3D 形状结构 [10,C _ o f # R 33] 和室内 3D 场景 [1d 2 D2]。文档m ( A | ) 6 ~布局在结构上相似于 3D 室内场景,从语义实体松散相关且不受几许连通性 (如 3D 形状中的部分) 束缚的意义上来说。

但与室4 = #内场景不同,在室内场景中,任何有用子场景排列都会组成看似合理的大局场景 [14,30],文档中的语义实体有必要放置在正确的方位,以使生成的布局看起来逼真; 例如,标题应该总是出现在顶部。换句话说,文档布局施行了更多的大局束缚。

3.练习模型

咱们的 RvNN-VAE 生成布局结构是在具有依据语义的标签的文档数据集上练习的。也就是说,每个文档都由一组带标签的鸿沟框组成 (例如,杂志-文章标有标题、阶段等)。咱们运用一组符) = ] * A G % z号的鸿沟框,咱们称之为原子单位,为咱们练习会集的每个文档构建练习层次k [ ? , Y x结构m J Q P V。这些层次结构被纳入咱们的 RvNN-VAE 结构 (见图 2),并具有适宜的练习方针。经过练习后,RvNN-VAE 网络经过将随机采样的向量解码为具有相应语义标签的 2D 鸿沟框的层次结构来生成新的布局。

3.1.树立练习层次结构

image.png

图3. 从 IC-DAR2015 [1] 练习会集提取文档的探究性布局。输入文档和注释
盒子显现x ~ R在顶部。请A L $ J M . x ( I注意,当两个框兼并时,
兼并的鸿沟框是两个框的并集。

给定C M h Y * D t I Z符号的鸿沟框注释,咱们首要依据原子单元鸿N x H ]沟框的连通性和隐式对称性,为练习会集的每个文档提取结构分化,经过从左到右和从上到下扫描文档。成果以二叉树的办法存储。咱们以递归的办法将每对原子元素 (咱们将其视为叶节点) 兼并为一个框的联合,依据盒子之间的相对方位。内部节点也以相似的办法处理。这个探究进程一直持续到一切的盒子被兼并在一个单一的根节点下。如图3在单个练习样本上演示了这种探究进程的成果。如图所示,咱们运用各种类型的空间联系 (见图4)。

由于文档是由人类规划的,相关的原子单元_ ] 6 w u S w : g盒之间存在弱对称结构; 空间相关的场一般具有相似的盒几许形状。从左到右和从上到下遍历并不总是确保具有相似几许形状的原子单元被组合在一起,例如,放置在同一盒几许形状下的一个盒或许不会组合在一起S q = H 6 E f。可是,咱们证明晰咱们J { % Z的 RvNN-VAE 结构能够经过咱们简略的遍历战略有用地捕获盒子之间的联系,而没有任何杂乱的手工启发式。

3.2.建立递归布7 B / v局模型

将用于练习的提取层次结构中的每个原子单元开始运用其鸿沟盒尺度L f n a y Z ( 范围内归一化) 标明与它的语义标签衔接,该标签被! 3 | S J ~ v _ &编码为单热向量。要运用递归模型高效地建模文档布局,咱们首要运用一个简略的单层神经网络将原子单元鸿沟框映射到 矢量标明 (咱们依据经历设置 )。咱们的递归主动编码器网络h : 6 e由空间联系编码器 (SRc ; Q W dEs) 和解码器 (SRDs) 组成。每个编码器和解码器都是一个多层感知器 (MLP),表述为:

咱们用 标明分量 和误差 调集在一切层上,在输入 上运转。咱们模型中的每个 MLP 都有一个躲藏层,因而,

咱们的 SREs 能够在 (i) 一对叶子上运转,或许 (ii) 内部节点和叶子上运转。无论怎么,咱们将两个节点标明p ? 3 {都标明为 。兼并的父代码 是依据 和两个鸿沟框之间的相对方位核算的,用 标明。相对方位总是z I S 4 k y核算 左子节点 (当兼并内部节点和叶节t z K点时,它是内部节点)。第8 2 7 y W { 3 SRE 表述为:

(1)

相应的 SRD 将父代码 y 拆分回其子代码 ,以及它们之间的相对方位 (见L S q N S图 2,右下角)。它运用一个反向映射,并制定如下:

(2)

层次结构中的每个节点代表一个特征向量,该特征向量由 c SREs (或 SRDs) 中的一个编码 (或解码)。特别% W q H G ` _ – Z是,咱们注意到,由于网络是递归的,关于不同的节点O h ) r,相同的编码器或: ? c 1 g解码器或许会被多次运用。如下文更具体的描绘,每个过程中运用的编码器的类型取决于该过程中元素之间的空间联系。

在解码进程中,咱们确定节点的空B r F 6 @间联系类型 i,以便能够运用相应的解码器R 5 * Z % & }。为此,咱们联合练习一个辅助节点分类器,以确定在每个递归解码过程中应用哪个 SRD。该分类器是一个具有一个躲藏层的神经网络,它将层次结构中节点的代码作为输入,并输出该节点代表叶子仍是内部节点。在内部节点的情况下,调用相应的 SRD,假如它是叶,运用非递归单层神经网络,代码被投影回符号的鸿沟框标明 (与语义类别对应的单热向量衔接的框维度)。

图 4.中运用的不同类型的空间编码器/解码器对
学习文档布局。左子项 (或引证框) 为
以黑色粗大的概括显现。核算相对方位
W.r.X _ 0 V } a rt.左孩子。

咱们考虑的编码和解码文档布局的空间联系类型是: 右、左、下、左下、右下、关闭和宽底 (c = 7),见图 4。请注意,咱们从左到右和从上到下遍历文档,因而,咱们不用考虑任何类型] i ] ; d .的顶部空O R J间联系。关于这些空间联系的完整描绘,请参阅弥补资料。n f

3.3. 练习具体

咱们 RvNN-VAE 网络的总练习丢失是:

(3)

其间榜首项是叶级重建丢失:

(4)

这儿, 是解码器上的 叶向量编码器,别离和 是叶子的数量。第二项是鸿沟框之间的相对方位重建丢失 (叶-叶或内部节点框和一个叶框):

(5)

哪里 C r S { ` W 别离标明解码器和编码器端的相对方位向量。第三个术语是一个规范的q w _ t Uk h K类穿插熵

丢失:

(6)

其间 是 sof. y 4 ~ m e s b %tmax 函数,a 是特征向量
从内部 (或根) 节点的输出映射到
应用了哪个节点分类器,而且 i ∈ [0,c-1] 对应于在
节点。

最终,等式 3 中的最终一个术语是 KL-背离丢失
为了近似Y * 4 ? 6 b _ B一切根代码的空间 (RvNN-VAE 的编码器输L B k k D 0 P出):

(7)

哪里 是潜在的空间和 是规范正态散布

为了练习咱们的 RvNN-VAE 网络,咱们随机初始化从高斯散布采样的权重。输出在空间上愈加平衡的文档布局,
咱们开发了一些 (可选的) 后处理过程,如弥补资f K V ` g x | = 2料中所述。

4.评价模型

为了评价咱们的办法在外观和可变性方面的体现,咱们c z k D提出了一种新的组合
布局相似性衡量咱们称之为 DocSim。创意来自怎么
机器翻译的S B + ) r + BLEU 衡量 (双语评价后研讨) [20] 丈量语句相似性,咱们的方针是0 Z t + Q取得简略且易于核算的结构相似性
文件之间的衡量; 一个相似于人类感知的相似性,但并不太 over-specified.2,咱们经过以下对 BLEU 的解说来介绍咱们的衡量: 考虑一切单词之间的二分图
W 在榜首句中,一切单词 在第二句中
语句 ,其间 之间有一个边,假如
两者都代表同一个词 (或f ! } : /许说,是同义词)。然后经过核算数字核算 BLEU 分数
这两个语句之间最大匹配的边。咱们的衡量,DocSim,相似地比较了两个给定的
文档布局 如下: 关于任意一对鸿沟框 ,咱们分配一个加权边
这标明 在形状上有多相似,
方位和文档中的 “角色”。最终的分数是
然后核算为最大的合计分量
(加权) 布局 之间的匹配。

办法上,假设咱们得到了两份文件 D1 和
D2,每个都被视为一组一个或多个鸿沟框
“类型” (现实世界文档中此类类型的示例
能够是阶段、标题、图形等)。每个鸿沟
盒子标明为k m 7 X C j G H由其最小值组成的四重
以及文档中的最大 x 和 y 坐标。
坐标被规范化,以适应单位 1 1 平方。
两个规范化文档之间的相似性衡量: k %
D1 和 D2 分两步核算: 权重分配到
箱对,箱间最大分量匹配。

为框对分配权重。咱们想给盒子对分配权重,这样相似的对
大致坐落同一@ C U} ` z L址,而且大致相n x d
面积,将具有更高的分量。下一步,咱们将
运用这些I B w B V ^ ?权重分配最大权重匹配
在 D1B u K ? = @ 的盒子和 D2 的盒子之间; 总相似性得分仅仅匹配的总权重。

图 5.给出了 ICDAR2015 的文档布局,咱们展现了
从 [31] 中描绘的概率办法取得的最近邻M , z l h u 4 ^ I和运用咱们办法Y b y的最近邻。五颜六色
图例: 标题、阶段、页脚、页码、图。

| j % a n q A 为两个归一化鸿沟框,其间
框畢的 x 坐标标明及其
Y 和谐是 。假如z p Z x N ` e 有不同
类型,则它们之间的权重为
(这本质上意味着不同类型的盒子不能
匹配)。否则,咱们将分量核算为

其间参数 界说如下:
方位参数 中心之间的相对欧几里德间隔
文件。咱们希望减少
假如他们互相相距很远。形状差异是 的宽度和高度,别离为

由于较大的鸿沟框在
文件的 “一般外观”,咱们希望指定
较大% ; `盒子之间边际的分量较大。因而,咱们将面积因子界说为 ,
咱们挑选 。为了解说这` : E B个挑选,观察到将常数更改为 C{ : S l _ ( h = 1 将分配
小盒子之间的边际简直没有分量,而
激烈支撑这种类型的边际。最终,咱们设置
形状常数为 。这意味着形状
两个盒子之间的差异在
他们的权重核算比方位参数。

盒子之间最r * ^ ~ g 2 X E F大分量匹配。考虑一个二分图,其间一部分包含 的一切框
j ) %另一部分则由 的一切方框组成,而

的边重
如上所述。咱们找到一个最大分量匹配
在这个二分图中运用了众所周知的
匈牙利法 [9]。 之间的相似性评分 被界说为

% n x D F p A K间总和超越一切对 (B1,B2) ∈ M(D1,D2)。在
弥补资料,咱们提供可视化
DoX s R X a ) 1cSim 带着的匹配程序。

5. 试验成果

为了评价咱们的布局生成办法,咱们进行了几组试验,旨在了解
生成D u k 9 p 0的布– ^ { y A #局是否高度可变,以及s _ ` G T k _ t V
视觉上-相似于练习文档。咱们还证明晰它们作为文档剖析练习数据的r ( } T I q d有用性
使命。在弥补资料中,咱们提供了具体的
消融剖析解说了咱们的规划挑选
Su + H [RE/SRDs 的数量。咱们评价咱们的 RvNN-VAE
以下两个数据集上的结构。

ICDAR2015 数据集。咱们运用揭露可用O p *的 ICDA. X _ $R2015 [1] 数据集,包含 478 个文档
以杂志文章为主题。关于这些文档,咱们考虑以下语义类别: 标题、阶段、页脚、页码和图形。

用户恳求的 (美国)z . n 数据集。咱们组装了一个数据集
2036 寻求用户信息的L { q P文件 (税务表格,
银行申请f } 1 ! . v l K B等)。这些文件一般体现出高度杂乱1 ; 5 7的结构和很多的
原子元素。这y d G C J }些特性为生成模型生成文档提出了一个风q x X W 1 a x趣的应战。
布局。关于这些类型U | 9 C w _ 9的文档,咱们考虑以下语义类别: 键值、标题和阶段。
键值框是具有单个问题 (键) 的区域
用户有必要答复/地址 (值)。作为数据集
咱们收集了未填写的文档,键值框
包含应由用户填写的区域。咱们运用 Amazon Mechanical Turk (AMT) 对一切类别进行语k E v P义注释。

练习: 咱们运用 PyTorch 结构 [21],有一个
批量为 128,学习率为 3*10-4。均匀而言,语义注释的鸿沟框的数量
在美国练习会集是 27.73 (最小 = 13,最大 = 45),17.61
(最小值 = 3,最大值 = 75) 用于 ICDAR2015 练习集。如图所示
在表 4 最右边的两列中,核算了咱们的
生成的数据相似。练习需求近 24 小时
在美国数据集上,在 ICDAR2015 上大约 10 小时
数据集,在 NVIDIA GTX 108r r 6 x Z ^ 1 A0 Ti GPU 上。

5.1.定量评价

咱们运用咱们提出的相似性衡量,DocSim,
定量评价咱们的布局生成办法。转
丈量咱们生成的文档布局的相似性
到潜在的文档布局散布,从L ~ w E S Z O l M
咱们对练习数据进行采样,迭N i y a代练习集和测验集,关于这些调会集的每个文档,咱们
在咱们生成的布局中找到最近的街坊。为此
结束– f g v ^ + d,文档 D 的最近邻是文档
D0,使得分v k 7 S达到最大 DocSiM w t d ] ` Sm(D,D0),相应g P : 9 i地,D 相关6 p ( q J
数据集 D 被界说为X . 7 B N C m_ d q [ 4 ` # /axD0 ∈ D DocSim(D,D0)。在咱们的
最近的街坊试验,咱们过滤掉9 Q v * I w 9 z *文档 D0
任何类别的盒子数量超越 3 个高于或低于 (堆叠移除前) D。

在 ICDAR2015 数据集上。作为基线,咱们取得
运用描绘的概率办法S K U 5 f l X x的组成布局
在 [31] 中,运用他们揭露的实现。值得注意的是,[31] 的首要重点是语义切割
文档及其概率布局归纳办法
(输出一、二、三列文档) 为
作为他们首要学习使命的助手而开发。

在 [31] 的概率归纳办法中,9 ! c符号
盒子依F 0 Z 1 n $ Z据预界说的散布进行采样
(例如,用概率 q 挑选阶段)。咱们取得
运用概率计划的 5k 布局的调集 P
[31]; 布局与标题阶段组成
图类,挑选概i & U率 0.1,0.7 和 0.2,
别离。同样,咱们取得了由咱们的 RVNN-VAE 结构生成的 5k 布局的调集 G,在那里咱们
运用 icdar2015 的 400 个文档的练习集 T。
来自 ICDAR2015 的一切剩余 78 个文档的调集 T 0 被认为是咱们的测验集。

咱们经过比较基i 8 & X L线收集 P 进行试验
依据他们捕捉的程度,咱们的 G 系列
潜在文档# d S . ` U n C $布局d l Y O Z空间,评价运用
咱们的DocSim 分数。首要,咱们运转以下内容: 关于任何
练习文件 T ∈ T,咱们挑选 GT ∈ G 作为
从咱们的调集生成文档,最大化
DocSim(T,Gy Z ^ ) 在一切 ∈ G 之间,和相似的 ypt ∈ pas
来自概率组成调集的文~ + – t $ : 4 ;档,该调集在一C h . ; q切 P ∈ P 中最大化 DocSim(T,P)。Y % ] h # u D C )
然后,T 和 G 之间的相似性得分核算为
DocSim(T,GT) 在一切 T ∈ T 上的均匀值; 关于一切 T ∈ T,T 和 P 之间的相似^ ` J = s ]性得分是运用 DocSim(T,PT) 模仿核算的。最终,咱们重复
以上试验,用测验代替i i ^ 1 V i d练习集 T
SetT; ; [ l } V . 90.

图 6. 给定由咱们的办法生F ] Z K 0 7 e ?成的文档布局,咱们从练习d H 4 R J . 4会集检索三个最接近^ m c , U的布局 (ICDAR2015 在
最上面一行,咱们在最下面一行) 和离咱们生成的调集最近的三个。五颜六色图例 (ICDAR2015){ ! V C O G: 见图 5。五颜六色图例 (美国):
标题、阶段、键值。

表 1.文档布局的空间剖析。继/ D U [11],
咱们运用语义实体的堆叠索引和对齐索引作为
评价咱们布局的另一项办法。

表 2 中给出的分数证明晰咱们的学习的文档布局在结构上更相似于
ICDAR2015 数据会集的样本,标明咱们的网络能够有意义地了解其练习的文档布局的潜在散布。

此外,在评价之后,咱们运用堆叠和对齐v ^ h O % – R指数1 z ! 0 – * b /进行定量剖析
莉等人 [11]。堆叠指数是占总数的百分比。
内部任意两个鸿沟框之间的堆叠区域
整页。第二个衡量,对齐指数,是经过寻觅其间的最小规范误差来核算的
一切鸿沟框的左坐标或中心y h 4坐标。表 1u O ~ # a *
显现实在 ICDM t t . L 4 0 l XAR2015 布局 [1] 、概率布局 [31] 和咱们生成的布局的堆叠索引和对齐索引的百分比。如中所示
表,咱们的成果与
练习数据,证明咱们的处理计划捕获了这些数据
指标很好 (而且比概率更好
布局)] – a O a o 0 0 E。在弥补中,咱s # X 2 ? =们还L N E L展现了盒子中心的散布及其在布局中的尺度。

在美国数据集上。由于咱们不知道曾经的作业
处理Y p 9 [这些类型的文件1 R – l U,咱们没有
要比较的基线办法。可是a f K m G z U },咱们能够调查咱们的网络在这个数据集上的学习能力,
其间包含相对很多的文档
(2036)。因而,除了练习咱们的网络
完整数据集,咱们还运用较小的练习样本子集。

由于整个美国数据集是高度可3 – U @ ! X 7 c W变的,咱们核算咱们的
中的每对文档布局的相似性评分
整个美国数据集,并将数据集分为五组
(运用谱聚类)。然后咱们练习咱们的网络
包含至少 500 个文档的群集: – g F U + Q T,运用 80-a 1 t H s o20
练习和测验拆分,并为生成 2k 文档布局
每个集群。

然后,9 U S R K r # 2 q咱们将经过练习在整个美国数据集上取得的相似性分数与在
美国聚类 (一切聚类得分的均匀值)。风趣的是,火车/测验集的分数简直是
相同 (轻微的得分优势: E ( J p j $ N为 0.002 到 0.003
关于整个美国数据集,这是 2-3% 的优势)。
这标明咱们的办法不需求很! , * W O : P y大的
与练习的潜在空间相匹配的数据量
设置得适当好; 事实上,如相对所示
相似的分数,在集群捕获上练习的模型
练习的潜7 q ! . ! ] e =在空间设置大致与
全套练习的模型。在图 6 中,咱们显现了
从练习集到的三个最接近的文档布局
运用咱们的办法生成的随机挑选的布# Z x T 5 5 _局样p [ x u W a T p 9本。正如中心三列所示,三列
最接近的练习样本与咱们生成的布局有一些相似之处,可是它们不一样,进一步验证
生成样本的新颖性。最右边的一列,4 ( ! ? v # B描绘生成调会集最近的街坊,
说明晰生成成果中的改变。查看
更多成果的弥补资料。

5.2.用! } % ! &于检测使命的数据增强

表 2. 咱们的办法与概率办法的比较
从 [31],就与潜M / p c $ ( g在散布的相似性而言
数据集 (分为练习和测验)。

表 3. 增强对的检测和切割功用
ICDAR2015 [1] 数据集运用数据增强 (第二行) 、具有概率布局的组成样本 (第三行)
或许咱们学习的布局 (底部行)。

为了演示咱们生成的布局的效用E j 4 M 8 – W,咱们
对文档执行规范检测使命,并运用由咱们的办法生成的布局文档来添加练习数据。咱们练习面具 RS z Y a a-CNN
[6],一个流行的物体检测和切割网络,
在 ICDAR2015 数据集上,评价取得的成果
有或没有执行M d V a } !数据扩大。

为了为 Mask R-CNN 生成练习样本,咱们将内容注入到咱们生成的布局中 (在 ICDARk $ j | 2 # R2015 数据集的 400 个文_ ! K /档进步行了练习)h t { w d f 4 7。为此,S 9 & q ; : m o ]咱们刮
维基百科的文本和图像。咱们也组成
运用描绘的概率r i x办法练习样本
在 [31] 中,将咱们的成果与
用他们的文档扩大L ? ? l V g @ W数据集。这两种情况下的内容都是从相同的抓取数据中取样的,
– ` o y w而,仅有的差异在于布局。此外,– Q ) i * e #咱们
将咱们的成果与规范增强技能进行比较,
它运用光度和几许增强来丰富 ICDAR2015 数据集 (& G N r J c有关一些增强样本,请参阅弥补资料)。在表 3 中,咱们比较
鸿沟框检测和切割成果
经过对不同数据集的练习取得。关w * `J w 4 l V Y a N这两种类型
在成果 (框/掩模) 中,咱们陈述均匀精度 (AP)
均匀得分超越 IoU 阈值和特定 IoU 值 (AP50,AP75)。陈述的成果超越了剩余的 78 份文件,咱们没有对此进行/ Z C ) L k w练习。作为表
演示,咱们! – . F a l生成的布局持续改善
检测和切割 IoU 分数 (至少 3%)。在
* e ; y较,用组成的文档取得; n Y J的分数
运用概率办法或运用惯例增强技能简直与取得的分数相同
在数据集上,不进行任何扩大。改善的
功用说明晰高度可变布局在生成有意义的组成数据中的巨大重要性,验证了咱们的技能成功地+ / M学习了相似于输入数据集的布局散布。

5.3. 和之前的比较

表 4.在用于练习的样本数量、练习会集语义类* – n {别的数量以及每个生成文档的均匀框数方面与k } l & W W x先前作业的比较。

据咱们所知,LaX j 1 d 9 [ P [youtGAN [11] 是
仅针对咱们的布景进行前期作业。由于缺少揭露
[11] 的可用代码和数据集,咱们对办法核8 d 3 E J算进行了定量比较,并呈现
它们在表 4 中,正如在 [11] 中所做的那样,咱们运用堆叠和对齐衡量 (如前所述) 进行比较
在实在布局、咱们生成的布局和p ^ 2 ) F 2 ~概率布局之间
布局 (见表 1)。

6. 总结与未来展望

在这项作业中,咱们提出了一种生成 2D 文档组成布局的新办法,包含递归神经网络和变分自编码器。
咱们还介绍了一种丈量文档相似性的衡量 DocSim,并运用该衡量来演示新颖性以及咱们生成布局的多样性。

咱们的办法有几个局限性。! E ; R h Q ` a q首要,
尽管咱们的办法能够生成高度可变的布局,有了几十个元素,但咱们还不能生成高度杂乱的布局 (例如,美国税收表格 1040),以及它了解怎么牢靠地标明和生成这样的布局将是非常风趣的。第二,咱们生成的布局或许包含不需求的工件,例如错位和框堆叠。咱们运用简略的启发式办法处理这些工件,但或许一个更体系的处理计划是将当时结构与GAN 结合,
这将鼓舞生成的布局在视觉+ ; R Z上更相似于练习样本。

在未来,弥补咱们的运用适– k ^ & _ ? j O ;宜的生成办J ` + m X % / h *法生成布局
鉴于L H $ N ; z 2 “有意义” 的高质量语义内容布局。此外,尽管咱们的网络不需求很多的注释数据,但仍有待观察,假A 0 3 + ] t G @如有一种办法能够规划布局生成办法,需求更少的注释练习数U / s B 9 h a T据,或许是一次性的,或许很少的办法来产生合理的和 “相似的”
“寻觅” 布局。最终,递归神经网络被显现 (在这儿和曾经的作品中) 对生成 “人为” 的分) e E层结构,如文档和室内场景,它们能被兼并用于生成高度结构化的天然场景吗?

原文

arxiv.org/abs/1909.00…