关于 2023 年的计算机视觉范畴来说,「切割全部」(Segment Anything Model)是备受重视的一项研究进展。

小模型也能够「切割全部」,Meta改善SAM,参数仅为原版5%

Meta四月份发布的「切割全部模型(SAM)」作用,它能很好地主动切割图画中的全部内容

Segment Anything 的要害特征是根据提示的视觉 Transformer(ViT)模型,该模型是在一个包含来自 1100 万张图画的超过 10 亿个掩码的视觉数据集 SA-1B 上练习的,能够切割给定图画上的任何方针。这种才能使得 SAM 成为视觉范畴的基础模型,并在超出视觉之外的范畴也能发生运用价值。

尽管有上述优点,但由于 SAM 中的 ViT-H 图画编码器有 632M 个参数(根据提示的解码器只需求 387M 个参数),因而实际运用 SAM 履行任何切割使命的计算和内存成本都很高,这对实时运用来说具有挑战性。后续,研究者们也提出了一些改善策略:将默认 ViT-H 图画编码器中的常识提炼到一个微小的 ViT 图画编码器中,或者运用根据 CNN 的实时架构下降用于 Segment Anything 使命的计算成本。

在最近的一项研究中,Meta 研究者提出了另外一种改善思路 —— 运用 SAM 的掩码图画预练习 (SAMI)。这是通过运用 MAE 预练习办法和 SAM 模型完成的,以获得高质量的预练习 ViT 编码器。

小模型也能够「切割全部」,Meta改善SAM,参数仅为原版5%

这一办法下降了 SAM 的复杂性,一起能够保持良好的功能。具体来说,SAMI 运用 SAM 编码器 ViT-H 生成特征嵌入,并用轻量级编码器练习掩码图画模型,然后从 SAM 的 ViT-H 而不是图画补丁重建特征,发生的通用 ViT 骨干可用于下流使命,如图画分类、物体检测和切割等。然后,研究者运用 SAM 解码器对预练习的轻量级编码器进行微调,以完结任何切割使命。

为了评价该办法,研究者采用了掩码图画预练习的搬迁学习设置,即首先在图画分辨率为 224 224 的 ImageNet 上运用重构丢失对模型进行预练习,然后运用监督数据在方针使命上对模型进行微调。

通过 SAMI 预练习,能够在 ImageNet-1K 上练习 ViT-Tiny/-Small/-Base 等模型,并提高泛化功能。关于 ViT-Small 模型,研究者在 ImageNet-1K 上进行 100 次微调后,其 Top-1 精确率达到 82.7%,优于其他最先进的图画预练习基线

研究者在方针检测、实例切割和语义切割上对预练习模型进行了微调。在全部这些使命中,本文办法都取得了比其他预练习基线更好的成果,更重要的是在小模型上获得了显著收益。

论文作者 Yunyang Xiong 表示:本文提出的 EfficientSAM 参数减少了 20 倍,但运行时间快了 20 倍,只与原始 SAM 模型的距离在 2 个百分点以内,大大优于 MobileSAM/FastSAM。

小模型也能够「切割全部」,Meta改善SAM,参数仅为原版5%

在 demo 演示中,点击图片中的动物,EfficientSAM 就能快速将物体进行切割:

小模型也能够「切割全部」,Meta改善SAM,参数仅为原版5%

EfficientSAM 还能精确标定出图片中的人:

小模型也能够「切割全部」,Meta改善SAM,参数仅为原版5%

试玩地址:ab348ea7942fe2af48.gradio.live/

办法

EfficientSAM 包含两个阶段:1)在 ImageNet 上对 SAMI 进行预练习(上);2)在 SA-1B 上微调 SAM(下)。

小模型也能够「切割全部」,Meta改善SAM,参数仅为原版5%

EfficientSAM 主要包含以下组件:

穿插注意力解码器:在 SAM 特征的监督下,本文观察到只要掩码 token 需求通过解码器重建,而编码器的输出能够在重建过程中充当锚点(anchors)。在穿插注意力解码器中,查询来自于掩码 token,键和值源自编码器的未掩码特征和掩码特征。本文将来自穿插注意力解码器掩码 token 的输出特征和来自编码器的未掩码 token 的输出特征进行兼并,以进行 MAE 输出嵌入。然后,这些组合特征将被重新排序到最终 MAE 输出的输入图画 token 的原始方位。

线性投影头。研究者通过编码器和穿插注意力解码器获得的图画输出,接下来将这些特征输入到一个小型项目头(project head)中,以对齐 SAM 图画编码器中的特征。为简略起见,本文仅运用线性投影头来解决 SAM 图画编码器和 MAE 输出之间的特征维度不匹配问题。

重建丢失。在每次练习迭代中,SAMI 包含来自 SAM 图画编码器的前向特征提取以及 MAE 的前向和反向传达过程。来自 SAM 图画编码器和 MAE 线性投影头的输出会进行比较,然后计算重建丢失。

小模型也能够「切割全部」,Meta改善SAM,参数仅为原版5%

通过预练习,编码器能够对各种视觉使命的特征表示进行提取,并且解码器也会被抛弃。特别是,为了构建用于切割任何使命的高效 SAM 模型,本文采用 SAMI 预练习的轻量级编码器(例如 ViT-Tiny 和 ViT-Small)作为 EfficientSAM 的图画编码器和 SAM 的默认掩码解码器,如图所示 2(底部)。本文在 SA-1B 数据集上对 EfficientSAM 模型进行微调,以完成切割任何使命。

试验

图画分类。为了评价本文办法在图画分类使命上的有用性,研究者将 SAMI 思想运用于 ViT 模型,并比较它们在 ImageNet-1K 上的功能。

如表 1 将 SAMI 与 MAE、iBOT、CAE 和 BEiT 等预练习办法以及 DeiT 和 SSTA 等蒸馏办法进行了比较。

小模型也能够「切割全部」,Meta改善SAM,参数仅为原版5%

SAMI-B 的 top1 精确率达到 84.8%,比预练习基线、MAE、DMAE、iBOT、CAE 和 BEiT 都高。与 DeiT 和 SSTA 等蒸馏办法比较,SAMI 也显示出较大的改善。关于 ViT-Tiny 和 ViT-Small 等轻量级模型,SAMI 成果与 DeiT、SSTA、DMAE 和 MAE 比较有显著的增益。

方针检测和实例切割。本文还将通过 SAMI 预练习的 ViT 骨干扩展到下流方针检测和实例切割使命上,并将其与在 COCO 数据集上通过预练习的基线进行比较。如表 2 所示, SAMI 始终优于其他基线的功能。

小模型也能够「切割全部」,Meta改善SAM,参数仅为原版5%

这些试验成果表明,SAMI 在方针检测和实例切割使命中所供给的预练习检测器骨干非常有用。

语义切割。本文进一步将预练习骨干扩展到语义切割使命,以评价其有用性。成果如表 3 所示,运用 SAMI 预练习骨干网的 Mask2former 在 ImageNet-1K 上比运用 MAE 预练习的骨干网完成了更好的 mIoU。这些试验成果验证了本文提出的技能能够很好地泛化到各种下流使命。

小模型也能够「切割全部」,Meta改善SAM,参数仅为原版5%

表 4 将 EfficientSAMs 与 SAM、MobileSAM 和 SAM-MAE-Ti 进行比较。在 COCO 上,EfficientSAM-Ti 的功能优于 MobileSAM。EfficientSAM-Ti 具有 SAMI 预练习权重,也比 MAE 预练习权重表现更好。

此外, EfficientSAM-S 在 COCO box 仅比 SAM 低 1.5 mIoU,在 LVIS box 上比 SAM 低 3.5 mIoU,参数减少了 20 倍。本文还发现,与 MobileSAM 和 SAM-MAE-Ti 比较,EfficientSAM 在屡次点击(multiple click)方面也表现出了良好的功能。

小模型也能够「切割全部」,Meta改善SAM,参数仅为原版5%

表 5 展现了零样本实例切割的 AP、APS、APM 和 APL。研究者将 EfficientSAM 与 MobileSAM 和 FastSAM 进行了比较,能够看到,与 FastSAM 比较,EfficientSAM-S 在 COCO 上获得了超过 6.5 个 AP,在 LVIS 上获得了 7.8 个 AP。就 EffidientSAM-Ti 而言,依然远远优于 FastSAM,在 COCO 上为 4.1 个 AP,在 LVIS 上为 5.3 个 AP,而 MobileSAM 在 COCO 上为 3.6 个 AP,在 LVIS 上为 5.5 个 AP。

并且,EfficientSAM 比 FastSAM 轻得多,efficientSAM-Ti 的参数为 9.8M,而 FastSAM 的参数为 68M。

小模型也能够「切割全部」,Meta改善SAM,参数仅为原版5%

图 3、4、5 供给了一些定性成果,以便读者对 EfficientSAMs 的实例切割才能有一个补充性了解。

小模型也能够「切割全部」,Meta改善SAM,参数仅为原版5%

小模型也能够「切割全部」,Meta改善SAM,参数仅为原版5%

小模型也能够「切割全部」,Meta改善SAM,参数仅为原版5%

更多研究细节,可参阅原论文。