论文解读丨【CVPR 2022】不使用人工标注提升文字识别器性能

本文共享自华为云社区《[CVPR 2022] 不使用人工标示提高文字辨认器功能》，作者：Hint。

本文提出了一种针对文字辨认的半监督办法。区别于常见的半监督办法，本文的针对文字辨认这类序列辨认问题做出了特定的规划。具体来说，本文首要选用了teacher-student的网络结构，然后选用字符等级的一致性束缚对teacher和student网络的猜测进行对齐。此外，考虑到文字辨认是step-by-step，每一个字符的猜测都和之前时间的猜测成果相关。为了避免student网络在当时时间的猜测成果遭到之前时间错误猜测的影响，本文将当时时间之前，teacher的猜测成果作为student当时时间之前的猜测成果，这样能够得到比较鲁棒的一致性束缚，从而提高功能。

近年来，场景文本辨认（STR）因其广泛应用而备受重视。大多数辨认模型需求很多的有标示数据进行强监督训练。尽管组成数据能够缓解辨认模型对数据量的需求，可是组成数据和实在场景的域间差距极大地限制了辨认模型在实在场景下的功能。在本文中，作者希望经过一起利用有标示的组成数据以及无标示的实在数据来提高STR模型的功能，完全不需求任何人工标示。本文提出了一种鲁棒的基于一致性束缚的半监督办法，能够有效处理组成数据与实在数据域不一致导致的不稳定问题。字符级的一致性束缚旨在减轻序列辨认过程中错误辨认导致的不对齐问题。在标准文字辨认数据集上，很多试验证明了所提出办法的有效性。该办法能够稳步提高现有的STR模型，并得到最先进的成果。此外，本文也是第一个将一致性束缚应用到文字辨认范畴的工作。

办法**：**

本结构包括两个分支，一个是输出有标签组成数据的强监督分支，一个是输入无标签实在数据的半监督分支。强监督分支和一般的辨认模型相同。关于半监督分支，选用teacher-student进行一致性束缚。具体来说，将强监督得到的预训练模型作为teacher和student网络的初始化模型，然后对同一张输入图像进行弱数据扩增和强数据扩增，并别离输入到teacher和student网络中；将teacher网络的猜测成果作为伪标签对student的输出进行监督。

因为文字辨认是一个序列辨认问题，当时时间的猜测成果和之前时间的猜测成果相关。为了尽可能减少target和online模型在同一时间猜测成果的不对齐问题，online分支之前时间的猜测成果会和target分支之前时间的猜测成果保持一致，然后再进行当时时间的字符猜测。字符等级的一致性loss如下公式所示，Dist()能够是穿插熵，KL-Div或许MSE，本文选用的是KL-Div。

此外，为了减轻组成数据与实在数据之间的域间不同，本文还使用了字符等级的域对齐模块。该模块首要别离将组成数据和实在数据每个时间的视觉特征收集起来构成一个集合H，然后核算他们各自的协方差矩阵cov()。

终究，整个结构的loss由强监督辨认loss，一致性束缚loss和域适应loss构成：

试验：

在引入无标签数据之后，当时辨认模型的功能能够得到稳定的提高。

相比于其他利用无标签数据的办法而言，本文提出的基于一致性束缚的办法能够优于其他几种办法。

该试验主要证明了online model中的projection layer，使用EMA更新的target model和domain adaptation模块的有效性。

该试验证明了在online model中使用和target model相同的之前时间猜测成果的有效性。

该试验主要讨论了一致性loss的类型对终究功能的影响，能够看到穿插熵和KL-Div功能差不多，且优于MSE。

论文链接：[2204.07714] Pushing the Performance Limit of Scene Text Recognizer without Human Annotation (arxiv.org)

点击重视，第一时间了解华为云新鲜技能~

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

论文解读丨【CVPR 2022】不使用人工标注提升文字识别器性能

近期文章

近期评论