导读

论文:《Exploring Open-Vocabulary Semantic Segmentation without Human Labels》

TL;DR: 今日主要为大家介绍一种名为ZeroSeg的新办法,用于练习开放词汇的零样本(zero-shot)语义切割模型。该办法的特色在于无需运用人工标示的数据进行模型练习,因而能够扩展至大型未标示的数据集。

概述ZeroSeg模型选用预练习的视觉-言语模型(如CLIP)作为”教师模型“,将其学习到的视觉概念提炼到一组切割令牌(segment tokens)中,每个 token 都归纳了方针图画的一个部分区域。这个进程不需要任何人工标签,因而能够将 CLIP 等模型的常识直接迁移到语义切割使命上。

KAUST & Meta AI 新作 | ZeroSeg: 无需语义标签和文本信息,开放词汇语义分割一把梭哈!

模型结构和优化办法:ZeroSeg 模型在处理像素级别的监督问题上,提出了一个有用的像素分组和分类办法。该办法经过自动化地将像素分组到更有意义、形状不规则的 segment 中,从而更简单地从 CLIP 视觉编码器中提取和提炼语义信息。此外,为了提高练习效率,模型还引入了一个掩码自编码器(MAE)。

模型功能:运用仅 ImageNet 1k 数据集进行练习的 ZeroSeg,其功能与那些运用人工标签练习的模型适当。在 PASCAL VOC 2012,PASCAL Context,和 COCO 数据集上的体现分别达到了 40.8,20.6 和 20.4 的 mIoU,这些成果与那些在 26M 和 20M 图画-文本对上进行预练习的模型如 GroupViTMaskCLIP 适当。此外,ZeroSeg 在更大词汇量(1000类)的语义切割使命上也有良好的体现。

总的来说,这项研讨为开放词汇的语义切割问题提供了一种有用的解决方案,该方案既无需人工标签,又能经过对预练习的视觉-言语模型的常识提炼,完成了零样本(zero-shot)的语义切割。此外,该模型还具有练习效率高、功能优越等特色。

办法

KAUST & Meta AI 新作 | ZeroSeg: 无需语义标签和文本信息,开放词汇语义分割一把梭哈!

总体架构: ZeroSeg 是一种用于进行语义切割的网络结构。其主要经过蒸馏从预练习的视觉-言语模型CLIP中获取的常识来执行使命。ZeroSeg的主要组成部分包括一个ViT编码器和两个头部,包括解码器头部切割头部

ViT 编码器: 当给定图画时,编码器将其分为非重叠的patch。编码器从每个补丁中选择一部分视觉令牌作为输入,并生成相应的潜在表明。

解码器头部: 解码器运用潜在表明重构masked 的图画像素,即 MAE,经过最小化重构图画和原始图画之间的均方差错(MSE)进行练习。

切割头部: 切割头部的输出被转化为 segment token,用于经过蒸馏进行语义切割的学习。具体来说,ZeroSeg 从预练习的 CLIP 视觉编码器中提取多标准图画特征,并将它们蒸馏到这些 st 中。这里主要运用两种蒸馏办法:多标准特征蒸馏丢失切割匹配丢失

多标准特征蒸馏丢失: 根据 L1 蒸馏丢失,其操作在大局特征和多标准视觉特征之间。它经过把输入图画划分为多标准视图(如2×2和3×3网格)并将这些视图传递给预练习的 CLIP 视觉编码器以发生视觉特征。

切割匹配丢失: 这是一种用于执行部分区域特征和段令牌之间蒸馏的办法。关于每个 st,这种丢失函数查找其最近的部分区域,并最小化它们之间的 L1 距离,从而增加切割部分和视觉概念之间的语义一致性。

试验

KAUST & Meta AI 新作 | ZeroSeg: 无需语义标签和文本信息,开放词汇语义分割一把梭哈!

能够看出,ZeroSeg 只需依赖再 ImageNet-1k 上预练习的 ViT 权重,而无需具体语义标签,借助 CLIP 等现有的视觉-言语模型即可取得功能优异的零样本切割功能。

KAUST & Meta AI 新作 | ZeroSeg: 无需语义标签和文本信息,开放词汇语义分割一把梭哈!

从消融试验的成果来看,多标准特征提取在其间起到无足轻重的效果,本质上仍是学习一副图画的不同视图。

KAUST & Meta AI 新作 | ZeroSeg: 无需语义标签和文本信息,开放词汇语义分割一把梭哈!

可视化成果也能杰出多标准匹配的效果,避免因感触野掩盖不足而引起的“空泛”问题。

KAUST & Meta AI 新作 | ZeroSeg: 无需语义标签和文本信息,开放词汇语义分割一把梭哈!

与其它现有的同类切割器相比,对复杂场景的语义剖析能力也是杠杠的!

总结

本文展现了一个不依赖人工标签,只经过从预练习模型中蒸馏常识就能进行高效语义切割的模型。总的来说,作者经过 ZeroSeg 证明了能够经过从预练习的通用视觉-言语模型中传递常识来有用地练习语义切割模型,同时期望这将为怎么运用最近的基础模型研讨成果来协助像语义切割这样的像素级下游使命开辟一条新的途径。

但是,我们能够简单看出一个坏处,因为该模型依赖于预练习的大型视觉言语模型,这些模型或许会在练习数据中存在的成见。因而,如当心挑选练习数据等缓解措施关于确保我们模型的合规运用至关重要。

写在最后

欢迎对计算机视觉相关研讨感兴趣的童鞋扫描屏幕下方二维码或者直接查找微信号 cv_huber 添加小编好友,补白:校园/公司-研讨方向-昵称,与更多小伙伴一同交流学习!