机器之心报道

机器之心编辑部

CV 范畴已经卷到了一个新的高度。

本月初,Meta 发布「切割全部」AI 模型 ——Segment Anything Model(SAM)。SAM 被认为是一个通用的图画切割根底模型,它学会了关于物体的一般概念,可认为任何图画或视频中的任何物体生成 mask,包含在练习过程中没有遇到过的物体和图画类型。这种「零样本迁移」的才能令人惊叹,乃至有人称 CV 范畴迎来了「GPT-3 时间」。

最近,一篇「一次性切割全部」的新论文《Segment Everything Everywhere All at Once》再次引起关注。在该论文中,来自威斯康星大学麦迪逊分校、微软、香港科技大学的几位华人研讨者提出了一种基于 prompt 的新式交互模型 SEEM。SEEM 能够依据用户给出的各种模态的输入(包含文本、图画、涂鸦等等),一次性切割图画或视频中的一切内容,并识别出物体类别。该项目已经开源,并供给了试玩地址供咱们体会。

一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了

论文链接:arxiv.org/pdf/2304.06…

项目链接:github.com/UX-Decoder/…

试玩地址:huggingface.co/spaces/xdec…

该研讨经过全面的试验验证了 SEEM 在各种切割使命上的有效性。即便 SEEM 不具有了解用户意图的才能,但它表现出强壮的泛化才能,由于它学会了在统一的表征空间中编写不同类型的 prompt。此外,SEEM 能够经过轻量级的 prompt 解码器有效地处理多轮交互。

一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了

先来看一下切割作用:

在变形金刚的合影中把「擎天柱」切割出来:

一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了

还能对一类物体做切割,比如在一张景象图片中切割出一切建筑物:

一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了

SEEM 也能轻松切割出视频中移动的物体:

一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了

这个切割作用能够说是十分丝滑了。咱们来看一下该研讨提出的办法。

**办法概述
**

该研讨旨在提出一个通用接口,以凭借多模态 prompt 进行图画切割。为了完成这一方针,他们提出了一种包含 4 个属性的新方案,包含多功能性(versatility)、组合性(compositionality)、交互性(interactivity)和语义感知才能(semantic-awareness),具体包含

1)多功能性该研讨提出将点、掩码、文本、检测框(box)乃至是另一个图画的参阅区域(referred region)这些异构的元素,编码成同一个联合视觉语义空间中的 prompt。

2)组合性经过学习视觉和文本 prompt 的联合视觉语义空间来即时编写查询以进行推理。SEEM 能够处理输入 prompt 的恣意组合。

3)交互性:该研讨引入了经过结合可学习的回忆(memory) prompt,并经过掩码指导的穿插注意力保留对话历史信息。

4)语义感知才能:运用文本编码器对文本查询和掩码标签进行编码,从而为一切输出切割成果供给了敞开集语义。

一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了

架构方面,SEEM 遵循一个简略的 Transformer 编码器 – 解码器架构,并额外添加了一个文本编码器。在 SEEM 中,解码过程类似于生成式 LLM,但具有多模态输入和多模态输出。一切查询都作为 prompt 反馈到解码器,图画和文本编码器用作 prompt 编码器来编码一切类型的查询。

一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了

具体来说,该研讨将一切查询(如点、框和掩码)编码为视觉 prompt,同时运用文本编码器将文本查询转换为文本 prompt,这样视觉和文本 prompt 就能坚持对齐。5 种不同类型的 prompt 都能都映射到联合视觉语义空间中,经过零样本习惯来处理未见过的用户 prompt。经过对不同的切割使命进行练习,模型具有处理各种 prompt 的才能。此外,不同类型的 prompt 能够凭借穿插注意力互相辅佐。终究,SEEM 模型能够运用各种 prompt 来取得杰出的切割成果。

除了强壮的泛化才能,SEEM 在运转方面也很高效。研讨人员将 prompt 作为解码器的输入,因此在与人类进行多轮交互时,SEEM 只需要在最开始运转一次特征提取器。在每次迭代中,只需要运用新的 prompt 再次运转一个轻量级的解码器。因此,在布置模型时,参数量大运转负担重的特征提取器能够在服务器上运转,而在用户的机器上仅运转相对轻量级的解码器,以缓解多次远程调用中的网络推迟问题。

如上图 3(b)所示,在多轮交互中,每次交互包含一个人工循环和一个模型循环。在人工循环中,人接纳上一次迭代的掩码输出,并经过视觉 prompt 给出下一轮解码的正反馈或负反馈。在模型循环中,模型接纳并更新回忆 prompt 供未来的猜测。

试验成果

该研讨将 SEEM 模型与 SOTA 交互式切割模型进行了试验比较,成果如下表 1 所示。

一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了

作为一个通用模型,SEEM 完成了与 RITM,SimpleClick 等模型适当的性能,并且与 SAM 的性能十分接近,而 SAM 用于练习的切割数据是 SEEM 的 50 倍之多。

与现有的交互式模型不同,SEEM 是第一个不只支撑经典切割使命,还支撑各种用户输入类型的通用接口,包含文本、点、涂鸦、框和图画,供给强壮的组合功能。如下表 2 所示,经过添加可组合的 prompt,SEEM 在 cIoU,mIoU 等目标上有了显著的切割性能提升。

一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了

咱们再来看一下交互式图画切割的可视化成果。用户只需要画出一个点或简略涂鸦,SEEM 就能供给十分好的切割成果

一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了

也能够输入文本,让 SEEM 进行图画切割

一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了

还能直接输入参阅图画并指出参阅区域,对其他图画进行切割,找出与参阅区域一致的物体:

一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了

一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了

该项目已经能够线上试玩,感兴趣的读者快去试试吧。