CVPR 2023 | 基于Token对比的弱监督语义分割新方案！

前言 ViT能够缓解弱监督语义切割 (WSSS) 中，CAM生成伪标签无法辨认完好对象区域的问题，可是它也形成过度滑润的问题。为了处理这个问题，本文提出ToCo办法，首要，因为调查到 ViT 中的中间层依然能够保留语义多样性，规划了一个 Patch Token Contrast 模块 (PTC)。 PTC 运用从中间层派生的伪符号关系来监督终究的补丁符号，答应它们对齐语义区域，然后发生更精确的 CAM。其次，为了进一步区别 CAM 中的低置信度区域，规划了一个类符号比照模块 (CTC)，CTC 经过比照它们的类符号来促进不确定部分区域和全局对象之间的标明一致性。
在 PASCAL VOC 和 MS COCO 数据集上的实验标明，所提出的 ToCo 能够明显逾越其他单级竞争对手，并与最先进的多级办法实现可比的功能。

本文转载自自动驾驶之心

作者 | 王汝嘉

仅用于学术共享，若侵权请联系删除

欢迎关注大众号CV技能攻略，专心于计算机视觉的技能总结、最新技能盯梢、经典论文解读、CV招聘信息。

CV各大方向专栏与各个布置结构最全教程收拾

计算机视觉入门1v3辅导班

论文：arxiv.org/pdf/2303.01…代码：github.com/rulixiang/T…

论文思路：

运用图画级（image-level）标签的弱监督语义切割(WSSS)一般运用类激活映射(Class Activation Map, CAM)生成伪标签。受CNN部分结构感知的限制，CAM一般无法辨认完好的方针区域。尽管最近的VisionTransformer(ViT)能够弥补这个缺陷，可是本文调查到它也带来了过度滑润（over-smoothing）的问题，即终究的patch token趋向于一致。在这项工作中，本文提出Token Contrast(ToCo)来处理这个问题，并进一步探究ViT关于WSSS的优点。首要，根据ViT的中间层依然能够保持语义多样性的调查，本文规划了一个Patch Token Contrast module(PTC)。PTC运用中间层派生的pseudo token关系来监督最后的patch tokens，答应它们对齐语义区域，然后发生更精确的CAM。其次，为了进一步区别CAM中的低置信度区域，本文规划了一个Class Token Contrast module(CTC)，其灵感来自于ViT中的class tokens能够捕获高档语义。CTC经过比照不确定的部分区域和全局物体的class tokens，促进了它们之间的标明一致性。在PASCAL VOC和MS COCO数据集上的实验标明，提出的ToCo能够明显地逾越其他single-stage竞争对手，并达到与当前最先进的multi-stage算法适当的功能.

主要贡献：

本文提出Patch Token Contrast(PTC)来处理ViT中的过度滑润问题。PTC经过运用中间常识监督终究的tokens，能够对立patch的均匀性，明显进步WSSS伪标签的质量。

本文提出了Class Token Contrast(CTC)，它能够对全局远景和部分不确定区域(布景)的标明进行比照，并促进了CAM中方针激活的完好性。

在PASCAL VOC[14]和MS COCO数据集[26]上的实验标明，提出的ToCo办法能够明显优于SOTA single-stage WSSS办法，并且能够达到与multi-stage竞争对手适当的功能。

网络规划：

图3。ToCo的整体结构。ToCo首要运用一个额定的分类层(cls. layer)来出产辅佐CAM(aux. CAM)。在PTC模块中，运用aux. CAM来推导tokens关系，并监督终究patch tokens的成对tokens类似度，以处理过度滑润问题。在CTC模块中，将负/正图画的class tokens进行投影，并与global class token进行比照，进一步区别CAM中的低置信度区域。伪标签是用终究的CAM生成的。

如图3所示，ToCo在ViT编码器中运用一个辅佐分类层来生成辅佐CAM。随后运用辅佐CAM生成辅佐伪标签并引导PTC模块。同时，它也被用来为CTC模块生成裁剪正面和负面部分图画的提议。运用分类层获得终究CAM，并且运用该终究CAM来生成终究伪标签。