新智元报道

修改:拉燕 桃子

【新智元导读】计算机视觉迎来大打破!新加坡国立大学学者开发Anything-3D,单图超快3D重建!

2D图画的3D重建一直是CV范畴的重头戏。

层出不同的模型被开发出来试图攻克这个难题。

今天,新加坡国立大学的学者一起宣布了一篇论文,开发了一个全新的结构Anything-3D来处理这个老大难问题。

3D版「分割一切」来了!NUS华人团队最新模型,单视图重建3D,又快又准

论文地址:arxiv.org/pdf/2304.10…

凭借Meta「切割一切」模型,Anything-3D直接让切割后的恣意物体活起来了。

另外,再用上Zero-1-to-3模型,你就能够得到不同视点的柯基。

乃至,还能够进行人物3D重建。

3D版「分割一切」来了!NUS华人团队最新模型,单视图重建3D,又快又准

能够说,这把真打破了。

Anything-3D!

在实际国际中,各种物体和各类环境既多样又杂乱。所以,在不受约束的情况下,从单一RGB图画中进行三维重建面临诸多困难。

在此,新加坡国立大学研究人员结合了一系列视觉言语模型和SAM(Segment-Anything)物体切割模型,生成了一个功能多、可靠性强的体系——Anything-3D。

目的便是在单视角的条件下,完成3D重建的使命。

3D版「分割一切」来了!NUS华人团队最新模型,单视图重建3D,又快又准

他们采用BLIP模型生成纹路描绘,用SAM模型提取图画中的物体,然后使用文本→图画的分散模型Stable Diffusion将物体放置到Nerf(神经辐射场)中。

在后续的试验中,Anything-3D展现出了其强壮的三维重建的能力。不只精确,适用面也十分广泛。

Anything-3D在处理现有办法的局限这方面,作用明显。研究人员经过对各类数据集的检验和评估,展现了这种新结构的长处。

3D版「分割一切」来了!NUS华人团队最新模型,单视图重建3D,又快又准

上图中,我们能够看到,「柯基吐舌头千里奔袭图」、「银翅女神像委身豪车图」,以及「郊野棕牛头戴蓝绳图」。

这是一个开始展现,Anything-3D结构能够熟练地把在恣意的环境中拍摄的单视角图画中恢复成的3D的形状,并生成纹路。

尽管相机视角和物体属性有很大的改变,但这种新结构始终能供给精确性较高的成果。

要知道,从2D图画中重建3D物体是计算机视觉范畴课题的中心,对机器人、自动驾驶、增强实际、虚拟实际,以及三维打印等范畴都有巨大影响。

虽然这几年来取得了一些不错的进展,但在非结构化环境中进行单图画物体重建的使命仍然是一个具有很大吸引力且亟待处理的问题。

现在,研究人员的使命便是从一张单一的二维图画中生成一个或多个物体的三维表明,表明办法包含点云、网格或体积表明。

但是,这个问题从根本上来说并不成立。

因为二维投影所产生的内在含糊性,不可能明确地确认一个物体的三维结构。

再加上形状、巨细、纹路和外观的巨大差异,重建自然环境下的物体十分杂乱。此外,实际国际图画中的物体经常会被遮挡,这就会阻碍被遮挡部分的精准重建。

一起,光照和暗影等变量也会极大地影响物体的外观,而视点和距离的不同也会导致二维投影的明显改变。

困难说够了,Anything-3D能够进场了。

论文中,研究人员具体介绍了这个开创性的体系结构,将视觉言语模型和物体切割模型交融在一起,轻轻松松就能把2D物体搞成3D的。

这样,一个功能强壮、自适应能力强的体系就成了。单视图重建?Easy.

研究人员表明,将这两种模型结合,就能够检索并确认出给定图画的三维纹路和几许形状。

Anything-3D使用BLIP模型(Bootstrapping言语-图画模型)预练习对图画的文本描绘,然后再用SAM模型识别物体的分布区域。

接下来,使用切割出来的物体和文本描绘来履行3D重建使命。

换句话说,该论文使用预先练习好的2D文本→图画分散模型来进行图画的3D组成。此外,研究人员用分数蒸馏来练习一个专门用于图画的Nerf.

3D版「分割一切」来了!NUS华人团队最新模型,单视图重建3D,又快又准

上图便是生成3D图画的全过程。左上角是2D原图,先经过SAM,切割出柯基,再经过BLIP,生成文本描绘,然后再用分数蒸馏搞个Nerf出来。

经过对不同数据集的严厉试验,研究人员展现了这种办法的有效性和自适应性,一起,在精确性、稳健性和归纳能力方面都超过了现有的办法。

研究人员还对自然环境中3D物体重建中已有的应战进行了全面深入地剖析,探讨了新结构怎么处理此类问题。

终究,经过将基础模型中的零距离视觉和言语理解能力相交融,新结构更能从真实国际的各类图画中重建物体,生成精确、杂乱、适用面广的3D表明。

能够说,Anything-3D是3D物体重建范畴的一个重大打破。

下面是更多的实例:

炫酷黑内饰小白保时捷,亮丽橙色挖机吊车,绿帽小黄橡皮鸭

年代眼泪褪色大炮、小猪猪可爱迷你存钱罐、朱砂红四腿高脚凳

这个新结构能够交互式地识别单视角图画中的区域,并用优化的文本嵌入来表明2D物体。终究,使用一个3D感知的分数蒸馏模型有效地生成高质量的3D物体。

总之,Anything-3D展现了从单视角图画中重建自然3D物体的潜力。

研究者称,新结构3D重建的质量还能够更完美,研究人员正在不断努力提高生成的质量。

此外,研究人员表明,现在没有供给3D数据集的定量评估,如新的视图组成和误差重建,但在未来的工作迭代中会纳入这些内容。

一起,研究人员的终究目标是扩大这个结构,以适应更多的实际情况,包含稀疏视图下的对象恢复。

作者介绍

Wang现在是新加坡国立大学(NUS)ECE系的终身制助理教授。

在参加新加坡国立大学之前,他曾是Stevens理工学院CS系的一名助理教授。在参加Stevens之前,我曾在伊利诺伊大学厄巴纳-香槟分校Beckman研究所的Thomas Huang教授的图画形成小组担任博士后。

Wang在洛桑联邦理工学院(EPFL)计算机视觉试验室取得博士学位,由Pascal Fua教授辅导,并在2010年取得香港理工大学计算机系的一等荣誉学士学位。

3D版「分割一切」来了!NUS华人团队最新模型,单视图重建3D,又快又准

参考资料:

arxiv.org/pdf/2304.10…