​​​​​​​​​​​​​​​​​​​​​​摘要:文档了解着重于从非结构化文档中识别并提取键值对信息,并将其输出为结构化数据。在过往的信息提取中,大多数阿里云作业仅仅只注重于交流技巧许医师攻略版电视剧提取文本的实体联络,因此并不适用于直接用于文档了解阿里众包上。

本文共享自华为云社区《论文解读系列十三:大局信息关于图阿里巴巴女职工网络文档解析的影响》阿里巴巴招聘,作者:一笑倾城 。

带你看论文丨大局信息关于图网络文档解析的影响

1、布景介绍

文档了解着重于从非结构化文档中识别并提取键值对信息,并将其输出为结构阿里巴巴化数据。在过往的信息提取中,大多数作业仅仅只注重于提取文本的实体联络,并不适用于直接阿里巴巴用于文档了解上。

在 ICDAR2019 的比赛上,参赛者被要求从发票收据等文档中提取键值对信息。阿里巴巴因此本文提出了一种包含了大局信息阿里云盘,而且结合了视觉信息的图网络结构,来完结从非结构化文档中提取要害信息的使命。

2、网络结构

本文将文档了解使命转化为图节点分类使命。关于阿里云文本的大局和部分信息获取:

带你看论文丨大局信息关于图网络文档解析的影响

运用 CLS 抓取大局阿里巴巴文本序列的分类阿里巴巴女职工信息,生成 w0,并将其与每个单独文本(w1,w2…,w阿里巴巴招聘n)放在同一输入向量中。经过 BERT 模型,独登时对每个元素进行编码,这样模型具有了部分和大局信息,一同也能对大局和部分文本交流才能进行 embedding

关于图片的大局和部分信息获取:运用的是相似的办法,不过是根据 CNN 网络来捕捉大局和部分的图画特征

带你看论文丨大局信息关于图网络文档解析的影响

文本和图画特征拼接:将图画特征和文本特征进行特征交融(concat)

带你看论文丨大局信息关于图网络文档解析的影响

网络构建:

带你看论文丨大局信息关于图网络文档解析的影响

给定文档内的一组文本段,构建一个虚拟的大局节点作为信息交流枢纽,这样每两个非交流技巧和办法相邻节点之间也是 two交流技巧许医师攻略版电视剧-hopneighbors, 削减信息交流损失的一同大局信息也能很直接输出到部分节点上。

带你看论文丨大局信息关于图网络文档解析的影响

聚合邻居阿里巴巴股票使得每一个节点与 two-hop neighbors 两两之间经过激活函数(leaky-r阿里女职工相片elu)进行模型参数更新,而且运用了 K-attention 来进步模型的才干(经过多个 attention 然后吞并一切 attention 的机制)

带你看论文丨大局信息关于图网络文档解析的影响

信息提取:

带你看论文丨大局信息关于图网络文档解析的影响

3、实验成果

阿里巴巴天池比赛的数据及上作用。

带你看论文丨大局信息关于图网络文档解析的影响

相关交流才能融化实验:移除视觉特征后,在天池数据以及 SROIE 上,能显着看出视觉特征可以在提阿里巴巴1688货源批发官网取结构化信息的问题上发挥重要的作用。同阿里巴巴云客服理,阿里巴巴删除大局节点也降低了模型精阿里巴巴云客服度,交流也验证了大局连接在图结构中阿里云的重要性。

带你看论文丨大局信息关于图网络文档解析的影响

点击注重,第一时间了解华为云新鲜技能~