敞开生长之旅!这是我参与「日新计划 12 月更文挑战」的第14天

本文首发于CSDN。

诸神沉默不语-个人CSDN博文目录

本文是场景文本辨认范畴运用自然言语处理办法的前沿技术总述。改自作者2021年底交的工程前沿技术讲座课程大作业(另一门课程计算机视觉的大作业也是在此文基础上改善的)。 (看作者的博文目录应该就能看出作者是做自然言语处理和图神经网络的)

@[toc]

一、背景介绍

本节将介绍场景文本辨认使命,尤其是其间自然言语处理办法运用的必要性。 场景文本辨认(Scene Text Recognition)是在实在场景图画中辨认文本的使命,归于计算机视觉方向的子研讨主题。 场景文本辨认范畴前期的研讨,如1 2等,都直接将文本字符视为无意义符号,运用分类模型辨认相应的符号。但当遇到文本字符不易被辨认的状况,如被污染、模糊时,仅用视觉信息来进行判别是很难的,但能够一起选用言语学信息来辅佐推理文本信息。如下图所示,图中文字HOUSE中的字母S被模糊,仅用视觉信息很简略分类过错,但经过言语学常识我们能够经过上下文信息将其推理出来。因而,后续办法如3 4 5等也开始运用言语学模型来处理这一问题,并取得了明显的成效。

场景文本识别应用自然语言处理的方法综述(2021年)
图 1:需用言语学信息辅佐文本辨认的事例。图源6

由于人类的言语学和视觉体系分隔运转,可是在阅览等辨认文字的场景下又能够一起作业,因而在哲学思想上,将自然言语处理办法运用于场景文本辨认使命是合理的。但如何运用言语学范畴的常识来改善场景文本辨认使命模型的作用依然是亟待处理的开放式问题。 本文将经过首要对ABINet7、SRN6、conv-ensemble-str 8、ASTER9、RAM 10等5个较为前沿的场景文字辨认范畴运用言语学信息来辅佐建模的办法进行总述,来介绍这一范畴的最新进展。

二、国内外研讨进展:各办法完成办法及对比

本文所涉及的参考论文首要出自中国学者,但也有部分作者或部分论文的悉数作者是国外学者。可是所有论文都以英文撰写,这是由于由于英文是国际交流用语、现阶段主流人工智能范畴会议与杂志及交流渠道依然以英语渠道为主两方面原因造成的。我认为我们应该有更多中文强势论文和渠道,可是现阶段我们依然需要阅览英文的论文。 本节以下部分将详细介绍ABINet7、SRN6、conv-ensemble-str 8、ASTER9、RAM 10这5个较为前沿的场景文本辨认范畴运用自然言语处理办法的模型,来介绍这一使命的最新进展。

ABINet7的特色即是autonomous(自治的)、bidirectional(双向的)、iterative(迭代的)。其办法全体架构如图 2所示,由2个自治的模型vision model(视觉模型)和language model(言语学模型)组成,视觉模型直接以图画数据作为输入,言语学模型则以视觉模型的输出概率向量作为输入概率向量。

场景文本识别应用自然语言处理的方法综述(2021年)
图 2:ABINet办法全体架构图。图源7

自治指两个模型之间没有梯度传递,是分隔学习的:这意味着该办法将两个模型分隔,其长处一在能够减少差错传达,二在能够别离预练习两个模型,三在能够强制两种模型别离学到视觉和言语学的常识,以避免耦合计算的进程中呈现做弊途径。一起,这种做法也更像人类阅览的进程,即对言语的剖析是能够独立于视觉的。 ABINet的视觉模型架构如图 3所示,运用ResNet(一共运用5个residual block,在第1和第3个block后运用了down-sampling战略)和Transformer单元来进行特征提取和序列建模,后接根据查询范式的方位注意力模块。

场景文本识别应用自然语言处理的方法综述(2021年)
图 3:ABINet的视觉模型架构图,图源7

ABINet的言语学模型架构如图 4所示,以方位编码作为输入,以视觉模型的字符概率向量来运用注意力机制,避免了self-attention机制或许呈现的信息泄露问题,并运用对角注意力掩码完成双向性,使得每个字符能够归纳双向的信息进行猜测。

场景文本识别应用自然语言处理的方法综述(2021年)
图 4: ABINet的言语学模型架构图,图源7

该办法的迭代性体现在反复多轮履行言语模型,使得辨认的作用逐步批改。迭代练习的成功事例如图 5所示,每幅图下的左上、右上、左下、右下别离是实在标签、第1-3轮迭代后的成果,能够看出在经过3轮迭代后,这些事例被成功辨认了出来,体现了该办法的有效性。

场景文本识别应用自然语言处理的方法综述(2021年)
图 5:ABINet迭代作用示意图,图源7

在ABINet模型的规划哲学层面,其自治性能够反映在人类辨认言语和辨认视觉的体系虽然能够在阅览时一起作业,但实际上是别离运转的两个体系,模块之间有其独立性,就像盲人也能够运用言语相同。而其双向性能够反应在人看文本时,辨识模糊文字时选用类似完形填空的办法,便是能够一起看其上下文来判别对应缺失方位应该填什么字符。而其迭代性则表现在人看文字时会重复、多次、进化地去辨认。 在ABINet办法之前提出的SRN模型6,也是前者重点对比的办法,是根据Transformer的双向并行计算模型。可是依然是根据自回归的架构,是将两个集成的Transformer模型表明层进行拼接交融,即别离只考虑了单向的信息,算是一种“伪双向”。ABINet办法处理了这一问题:经过只运用一个能够并行运算的模型减少了模型参数规模、提升了计算功率,并运用言语学模型完成了能够一起运用悉数上下文信息并确保没有跨时刻步信息拜访造成的信息泄露问题。 在SRN之前的ASTER9等办规律选用的是单向的自回归办法,只能串行、单向运转,功率较慢,且此前时刻步的过错猜测或许呈现差错累积问题,SRN运用的并行战略处理了这个问题。而ABINet经过言语学模型的迭代运算更进一步处理了跨时刻步的差错累积问题。后文也将对ASTER办法进行简要介绍。 除此以外,ABINet中视觉模型和言语学模型之间的自治性是经过自动的梯度阻塞完成的。而SRN模型中未自动考虑这一点,但其在从视觉信息中提取言语学信息的进程中(GSRM模块中)运用了argmax办法,相当于间接完成了自治性,由于argmax办法是不行导的,从而阻断了反向传达。 语义推理网络semantic reasoning network (SRN),运用了一个大局语义推理模块global semantic reasoning module (GSRM),经过多路并行传输获取大局语义上下文。SRN模型架构如图 6所示,其间GSRM模块架构如图 7所示。输入图画后,首要经过backbone network提取二维特征,在经过PVAM得到对齐的一维特征,这样每个特征就对应一个字符,捕获到了对齐的视觉信息。然后经过GSRM捕获到语义信息,最后将视觉信息与语义信息混合得到输出成果。

场景文本识别应用自然语言处理的方法综述(2021年)
图 6:SRN模型架构,图源6

场景文本识别应用自然语言处理的方法综述(2021年)
图 7:SRN模型中GSRM模块的架构,图源6

Conv-ensemble-str 8是ABINet团队前期作业,着眼于集成注意力(视觉)和言语学信息。 其练习阶段模型框架如图 8所示:全体根据CNN模型,遵从encoder-decoder架构,输出字符序列。其间encoder是一个二维residual CNN,decoder是一个一维CNN。在decoder中,用注意力模块捕获encoder中得到的视觉信息,用根据门控卷积层的言语学模块捕获言语学信息。运用两个模块输出别离计算穿插熵丢失函数,加总作为多使命练习丢失函数来进行练习。

场景文本识别应用自然语言处理的方法综述(2021年)
图 8:conv-ensemble-str架构,图源8

ASTER9也着眼于图片中歪曲、不规则文字的辨认,其模型架构如图 9所示:由纠正网络rectification network和辨认网络recognition network两部分组成,前者运用flexible thin-plate spline (TPS) 自动将图片纠正为正常的、不歪曲的方式,后者运用含注意力机制的sequence-to-sequence模型直接从纠正后的图片中猜测文本。运用多使命丢失函数来进行梯度传达。

场景文本识别应用自然语言处理的方法综述(2021年)
图 9:ASTER模型架构,图源9

相比于在其提出之前的办法,ASTER不需要显现标注字符检测,能够直接经过输入图片和对应标签端到端地练习辨认模型。 TPS转化能够纠正各种不规则文本图画,作用如图 10所示:

场景文本识别应用自然语言处理的方法综述(2021年)
图 10:TPS转化作用,图源9

全体纠正网络的架构如图 11所示:

场景文本识别应用自然语言处理的方法综述(2021年)
图 11:ASTER纠正网络架构,图源9

全体辨认网络的架构如图 12所示:

场景文本识别应用自然语言处理的方法综述(2021年)
图 12:ASTER纠正网络架构,图源9

此外,该模型中运用的双向decoder便是两个方向相反的单向decoder成果合并,简略取最大值。其结构如图 13所示。

场景文本识别应用自然语言处理的方法综述(2021年)
图 13:双向decoder,图源9

RAM 10是较早的运用注意力机制下的RNN算法来完成场景文本辨认的典型办法。在前叙办法中突破了该办法由于RNN的串行机制和杂乱完成而无法堆叠多层来建模的问题。 RAM模型结构如图 14所示,首要经过循环卷积网络(CNNs)提取图画特征,然后经过RNNs解码,隐式学习得到字符等级的言语学计算特征。Soft attention功能相当于特征挑选机制。

场景文本识别应用自然语言处理的方法综述(2021年)
图 14:RAM模型结构,图源10

本模型仅运用言语方面的丢失函数来进行反向传达(相比之下,前叙conv-ensemble-str 8运用了多使命丢失函数)。

三、当时研讨的不足及优化方向

当时研讨内容在揭露数据集上现已达到了较高的准确率,如图 15所示,即使在不规则文本上,ABINet也达到了超过85%的准确率。可是依然有提升的空间。在其他现实场景数据集中的作用也有待验证。

场景文本识别应用自然语言处理的方法综述(2021年)
图 15:ABINet准确率成果,图源7

此外,在时刻和算力价值上也能够持续提升。 本文所介绍的五个办法都是根据英文(拉丁语系)树立的辨认模型,在其他非拉丁语系文字上、尤其是长文本上的实验作用还较少验证。 此外,各模型常用的attention办法能够供给必定的可解释性和文本检测功能,如SRN6的PVAM模块能够计算出如图 16所示的注意力地图,在必定程度上能够对应到各个字符,可是对文本检测使命依然欠佳。接下来的研讨方向能够是提出文本检测、辨认等多使命全体化、端到端的pipeline办法。

场景文本识别应用自然语言处理的方法综述(2021年)
图 16:SRN的PVAM模块计算出的注意力地图,图源6

其他本文撰写进程中运用到的参考资料

  1. (CVPR 2021, Oral)聊一聊运用NLP言语模型处理场景文本辨认中问题的思路以及一些考虑 – 知乎
  2. 【论文阅览】Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for STR_Weijin_的博客-CSDN博客
  3. 【OCR文本辨认系列】Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Tex_Patrick Star1的博客-CSDN博客:这一篇讲了代码,就我的程度来说现已太深入了!
  4. ReadLikeHumans: Autonomous,Bidirectional and Iterative Language Modeling for Scene Text Recognition_CharlesWu123的博客-CSDN博客
  5. 论文笔记之Read Like Humans: ABINet for Scene Text Recognition_To_1_oT的博客-CSDN博客
  6. ASTER: An Attentional Scene Text Recognizer with Flexible Rectification_alibabazhouyu的博客-CSDN博客
  7. 文献阅览——(第十三篇)ASTER:An Attentional Scene Text Recognizer with Flexible Rectification_我学数学我自豪的博客-CSDN博客
  8. 【论文笔记】Recursive Recurrent Nets with Attention Modeling for OCR in the Wild_糖梦梦是女侠的博客-CSDN博客

其他与本主题相关的学习资料(持续更新)

  1. CVPR 2022文档图画剖析与辨认相关论文26篇汇集简介

Footnotes

  1. Wang K, Babenko B, Belongie S. End-to-end scene text recognition[C]//2011 International Conference on Computer Vision. IEEE, 2011: 1457-1464. ↩

  2. Jaderberg M, Simonyan K, Vedaldi A, et al. Reading text in the wild with convolutional neural networks[J]. International journal of computer vision, 2016, 116(1): 1-20. ↩

  3. Jaderberg M, Vedaldi A, Zisserman A. Deep features for text spotting[C]//European conference on computer vision. Springer, Cham, 2014: 512-528. ↩

  4. Jaderberg M, Simonyan K, Vedaldi A, et al. Deep Structured Output Learning for Unconstrained Text Recognition[C]//ICLR. 2015. ↩

  5. Qiao Z, Zhou Y, Yang D, et al. Seed: Semantics enhanced encoder-decoder framework for scene text recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 13528-13537. ↩

  6. Yu D, Li X, Zhang C, et al. Towards accurate scene text recognition with semantic reasoning networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 12113-12122. ↩ ↩2345678

  7. Fang S, Xie H, Wang Y, et al. Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 7098-7107. ↩ ↩2345678

  8. Fang S, Xie H, Zha Z J, et al. Attention and language ensemble for scene text recognition with convolutional sequence modeling[C]//Proceedings of the 26th ACM international conference on Multimedia. 2018: 248-256. ↩ ↩2345

  9. Shi B, Yang M, Wang X, et al. Aster: An attentional scene text recognizer with flexible rectification[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 41(9): 2035-2048. ↩ ↩23456789

  10. Lee C Y, Osindero S. Recursive recurrent nets with attention modeling for ocr in the wild[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 2231-2239. ↩ ↩234