中科院自动化所发布Fast SAM | 精度相当,速度提升50倍!!!

Title: Fast Segment Anything
PDF: arxiv.org/pdf/2306.12…
Code: github.com/casia-iva-l…

导读

SAM已经成为许多高级使命(如图画切割、图画描绘和图画编辑)的根底步骤。但是,其巨大的核算开支约束了其在工业场景中的广泛运用。这种核算开支首要来自于处理高分辨率输入的Transformer架构。因此,本文提出了一种具有可比功能的加速代替办法。经过将该使命从头界说为切割生成和提示,作者发现一个惯例的CNN检测器结合实例切割分支也能够很好地完成这个使命。具体而言,本文将该使命转换为经过广泛研讨的实例切割使命,并仅运用SAM作者发布的SA-1B数据集的1/50进行练习现有的实例切割办法。运用这种办法,作者在50倍更快的运转时间速度下完成了与SAM办法相当的功能。本文供给了充分的试验成果来证明其有效性。

导言

SAM被以为是里程碑式的视觉根底模型,它能够经过各种用户交互提示来引导图画中的任何方针的切割。SAM运用在广泛的SA-1B数据集上练习的Transformer模型,使其能够娴熟处理各种场景和方针。SAM开创了一个令人兴奋的新使命,即Segment Anything。因为其通用性和潜力,这个使命具有成为未来广泛视觉使命柱石的一切要素。但是,虽然SAM及其后续模型在处理segment anything使命方面展现了令人期待的成果,但其实践运用依然具有挑战性。显而易见的问题是与SAM架构的首要部分Transformer(ViT)模型相关的许多核算资源需求。与卷积模型相比,ViT以其巨大的核算资源需求脱颖而出,这关于其实践部署,特别是在实时运用中构成了妨碍。这个约束因此阻止了segment anything使命的发展和潜力。

鉴于工业运用对segment anything模型的高需求,本文规划了一个实时处理方案,称为FastSAM,用于segment anything使命。本文将segment anything使命分解为两个连续的阶段,即全实例切割和提示引导挑选。第一阶段依赖于根据卷积神经网络(CNN)的检测器的完成。它生成图画中一切实例的切割掩码。然后在第二阶段,它输出与提示相对应的感兴趣区域。经过运用CNN的核算功率,本文证明了在不太丢失功能质量的情况下,能够完成实时的segment anything模型。 本文期望所提出的办法能够促进对segment anything根底使命的工业运用。

::: block-1

中科院自动化所发布Fast SAM | 精度相当,速度提升50倍!!!

(a) FastSAM和SAM在单个NVIDIA GeForce RTX 3090上的速度比较。(b) 在BSDS500数据集[1, 28]上进行边际检测的比较。(c) COCO数据集[25]上方针提议的Box AR@1000评价中FastSAM和SAM的比较。SAM和FastSAM都运用PyTorch进行推理,只要FastSAM(TRT)运用TensorRT进行推理。 :::

本文提出的FastSAM根据YOLACT办法的实例切割分支的方针检测器YOLOv8-seg。此外,还选用了由SAM发布的广泛SA-1B数据集,经过仅在SA-1B数据集的2%(1/50)上直接练习该CNN检测器,它完成了与SAM相当的功能,但大大降低了核算和资源需求,从而完成了实时运用。本文还将其运用于多个下流切割使命,展现了其泛化功能。在MS COCO 上的方针提议使命中,该办法在AR1000上达到了63.7,比运用3232点提示输入的SAM高1.2点,但在单个NVIDIA RTX 3090上运转速度进步了50倍。

实时的segment anything模型关于工业运用十分有价值。它能够运用于许多场景。所提出的办法不仅为许多视觉使命供给了新的实用处理方案,而且速度十分快,比当前办法快几十倍或几百倍。此外,它还为通用视觉使命的大型模型架构供给了新的视角。关于特定使命来说,特定的模型依然能够运用优势来取得更好的功率-准确性平衡。

在模型压缩的角度上,本文办法经过引进人工先验结构,展现了显著减少核算量的可行途径。本文奉献可总结如下:

  • 引进了一种新颖的实时根据CNN的Segment Anything使命处理方案,显著降低了核算需求一起保持竞争功能。
  • 本研讨首次提出了将CNN检测器运用于segment anything使命,并供给了在杂乱视觉使命中轻量级CNN模型潜力的见地。
  • 经过在多个基准测验上对所提出的办法和SAM进行比较评价,提醒了该办法在segment anything领域的优势和下风。

办法

下图2展现了FastSAM网络架构图。该办法包括两个阶段,即全实例切割和提示引导挑选。前一个阶段是根底阶段,第二个阶段本质上是面向使命的后处理。与端到端的Transformer办法不同,全体办法引进了许多与视觉切割使命相匹配的人类先验知识,例如卷积的局部连接和感触野相关的方针分配战略。这使得它针对视觉切割使命进行了定制,而且能够在较少的参数数量下更快地收敛。

::: block-1

中科院自动化所发布Fast SAM | 精度相当,速度提升50倍!!!

FastSAM包括两个阶段:全实例切割(AIS)和提示引导挑选(PGS)。先运用YOLOv8-seg 对图画中的一切方针或区域进行切割。然后运用各种提示来识别感兴趣的特定方针。首要涉及点提示、框提示和文本提示的运用。 :::

实例切割

YOLOv8 的架构是根据其前身YOLOv5 发展而来的,交融了最近算法(如YOLOX 、YOLOv6 和YOLOv7 )的关键规划。YOLOv8的主干网络和特征交融模块(neck module)将YOLOv5的C3模块替换为C2f模块。更新后的头部模块选用解耦结构,将分类和检测分隔,并从根据Anchor的办法转向了根据Anchor-Free的办法。

YOLOv8-seg运用了YOLACT的实例切割原理。它经过主干网络和特征金字塔网络(Feature Pyramid Network, FPN)从图画中提取特征,集成了不同尺度的特征。输出包括检测分支和切割分支。检测分支输出方针的类别和鸿沟框,而切割分支输出k个原型(在FastSAM中默以为32个)以及k个掩码系数。切割和检测使命并行核算。切割分支输入高分辨率特征图,保留空间细节,并包括语义信息。该特征图经过卷积层处理,上采样,然后经过别的两个卷积层输出掩码。与检测头部的分类分支类似,掩码系数的范围在-1到1之间。经过将掩码系数与原型相乘并求和,得到实例切割成果。

YOLOv8能够用于各种方针检测使命。而经过实例切割分支,YOLOv8-Seg十分适用于segment anything使命,该使命旨在准确检测和切割图画中的每个方针或区域,而不考虑方针的类别。原型和掩码系数为提示引导供给了许多可扩展性。例如,能够额外练习一个简略的提示编码器和解码器结构,以各种提示和图画特征嵌入作为输入,掩码系数作为输出。在FastSAM中,本文直接运用YOLOv8-seg办法进行全实例切割阶段。

提示引导挑选

在运用YOLOv8成功地对图画中的一切方针或区域进行切割后,segment anything 使命的第二阶段是运用各种提示来识别感兴趣的特定方针。这首要涉及到点提示、框提示和文本提示的运用。

点提示

点提示的方针是将所选点与第一阶段取得的各种掩码进行匹配,以确定点所在的掩码。类似于SAM在办法中选用远景/布景点作为提示。在远景点位于多个掩码中的情况下,能够运用布景点来筛选出与当前使命无关的掩码。经过运用一组远景/布景点,咱们能够挑选感兴趣区域内的多个掩码。这些掩码将被兼并为一个独自的掩码,完整标记出感兴趣的方针。此外,还能够运用形态学操作来进步掩码兼并的功能。

框提示

框提示涉及将所选框与第一阶段中对应的鸿沟框进行IoU(交并比)匹配。方针是识别与所选框具有最高IoU得分的掩码,从而挑选感兴趣的方针。

文本提示

在文本提示的情况下,咱们运用CLIP模型提取文本的相应嵌入。然后,确定与每个掩码的固有特征进行匹配的图画嵌入,并运用类似度度量办法进行匹配。挑选与文本提示的图画嵌入具有最高类似度得分的掩码。

经过精心施行这些根据提示的挑选技能,FastSAM能够可靠地从切割图画中挑选特定的感兴趣方针。上述办法为在实时情况下完成segment anything使命供给了高效的办法,从而极大地增强了YOLOv8模型在杂乱图画切割使命中的实用性。关于更有效的根据提示的挑选技能,将留待未来探索。

试验成果

::: block-1

中科院自动化所发布Fast SAM | 精度相当,速度提升50倍!!!

SAM和FastSAM在单个NVIDIA GeForce RTX 3090 GPU上的运转速度比照。能够看出,FastSAM在一切提示数量上超过了SAM。此外,FastSAM的运转速度与提示数量无关,使其成为”Everything mode”的更好挑选。 :::

中科院自动化所发布Fast SAM | 精度相当,速度提升50倍!!!

中科院自动化所发布Fast SAM | 精度相当,速度提升50倍!!!

中科院自动化所发布Fast SAM | 精度相当,速度提升50倍!!!

::: block-1

中科院自动化所发布Fast SAM | 精度相当,速度提升50倍!!!

在COCO的一切类别上与无需学习的办法进行比较。此处陈述了无需学习的办法、根据深度学习的办法(在VOC上进行练习)以及本文办法与SAM办法在一切泛化上的均匀召回率(AR)和AUC比照成果。 :::

中科院自动化所发布Fast SAM | 精度相当,速度提升50倍!!!

中科院自动化所发布Fast SAM | 精度相当,速度提升50倍!!!

中科院自动化所发布Fast SAM | 精度相当,速度提升50倍!!!

中科院自动化所发布Fast SAM | 精度相当,速度提升50倍!!!

::: block-1

中科院自动化所发布Fast SAM | 精度相当,速度提升50倍!!!

在异常检测中的运用,其间SAM-point/box/everything分别表明运用点提示、框提示和悉数形式。 :::

::: block-1

中科院自动化所发布Fast SAM | 精度相当,速度提升50倍!!!

在显著性切割中的运用,其间SAM-point/box/everything分别表明运用点提示、框提示和悉数形式。 :::

::: block-1

中科院自动化所发布Fast SAM | 精度相当,速度提升50倍!!!

在建筑物提取中的运用,其间SAM-point/box/everything分别表明运用点提示、框提示和悉数形式。 :::

::: block-1

中科院自动化所发布Fast SAM | 精度相当,速度提升50倍!!!

相比SAM,FastSAM在大方针的狭窄区域上能够生成更精细的切割掩码。 :::

Limitations

整体而言,FastSAM在功能上与SAM相当,而且比SAM (3232) 快50倍,比SAM (6464) 快170倍。其运转速度使其成为工业运用的杰出挑选,如道路妨碍检测、视频实例跟踪和图画处理。在一些图画上,FastSAM甚至能够为大尺度方针生成更好的掩码。

中科院自动化所发布Fast SAM | 精度相当,速度提升50倍!!!

但是,正如试验中所展现的,FastSAM在生成框上具有明显的优势,但其掩码生成功能低于SAM,如上图11所示。FastSAM具有以下特点:

  • 低质量的小尺度切割掩码具有较高的置信度分数。作者以为这是因为置信度分数被界说为YOLOv8的鸿沟框分数,与掩码质量关系不大。改变网络以预测掩码的IoU或其它质量指标是改进的一种办法。
  • 一些微小尺度方针的掩码倾向于接近正方形。此外,大尺度方针的掩码可能在鸿沟框的边际出现一些伪影,这是YOLACT办法的缺点。经过增强掩码原型的能力或从头规划掩码生成器,能够预期处理这个问题。

定论

在本文中,咱们从头考虑了Segment Anything的使命和模型架构挑选,并提出了一种代替方案,其运转速度比SAM-ViT-H (3232)快50倍。试验证明,FastSAM能够很好地处理多个下流使命。但是,FastSAM还存在一些能够改进的缺点,例如评分机制和实例掩码生成范式。这些问题将留待未来的研讨处理。