上交&微软 Make-it-3D：diffusion+NeRF从单张图像生成高保真的三维物体！

本文首发于微信大众号 CVHub，未经授权不得以任何方式售卖或私自转载到其它渠道，仅供学习，违者必究！

Title: Make-It-3D: High-Fidelity 3D Creation from A Single Image with Diffusion Prior
Paper: arxiv.org/pdf/2303.14…
Code: make-it-3d.github.io/

布景

人类具有一种与生俱来的能力，可以轻松地想象3D几许和虚拟出从不同角度看物体的外观，这根据他们对国际的先验常识。

在本文中，研讨者的方针是完成类似的方针：从一个实在或人工生成的单张图画中创立高保真度的3D内容。这将为艺术表达和创意拓荒新的途径，例如为像Stable Diffusion这样的前沿2D生成模型创立的梦想图画带来3D作用。经过供给一种更易于拜访和自动化的创立视觉上惊人的3D内容的办法，研讨者希望吸引更广泛的受众加入到轻松的3D建模国际中来。

导读

本文探讨了仅运用单张图画创立高保真度3D内容的问题。这本质上是一项具有挑战性的任务，需求估计潜在的3D几许结构，并一起发生未见过的纹路。为了处理这个问题，论文运用练习好的2D分散模型的先验常识作为3D生成的监督。论文的办法名为：Make-It-3D，选用两阶段优化pipeline：第一阶段经过在前景视图中结合参阅图画的束缚和新视图中的分散先验来优化神经辐射场；第二阶段将大略模型转化为纹路点云，并运用参阅图画的高质量纹路，结合分散先验进一步提高逼真度。很多实验证明，论文的办法在成果上显着优于从前的办法，完成了预期的重建作用和令人形象深入的视觉质量。论文的办法是第一个测验从单张图画为一般方针创立高质量3D内容的办法，可用于text-to-3D的创立和纹路修正等各种使用。

贡献

论文的首要贡献总结如下：

论文提出了Make-It-3D结构，运用2D分散模型作为3D-aware先验，从单个图画中创立高保真度的3D物体。该结构不需求多视图图画进行练习，并可使用于任何输入图画，无论是实在的仍是生成的。
经过两个阶段的创立方案，Make-It-3D是首个完成普适方针高保真3D创立的工作。生成的3D模型展现出精细的几许结构和逼真的纹路，与参阅图画相符。
除了图画到3D创立之外，论文的办法还能完成高质量text-to-3D创立和纹路修正等多种使用。

办法

论文运用了文本-图画生成模型和文本-图画对比模型的先验常识，经过两阶段(Coarse Stage和Refine Stage)的学习来复原高保真度的纹路和几许信息，所提出的两阶段三维学习结构如图2所示。

Coarse Stage: Single-view 3D Reconstruction

作为第一阶段，论文从单一参阅图画 $x$ 重建一个粗糙的NeRF，以分散先验束缚新的视角。优化的方针是一起满意以下要求：

优化后的三维表明应该与输入观测x在参阅视图上的烘托成果十分类似
新视图烘托应该显现与输入共同的语义，并尽可能可信
生成的3D模型应该表现出引人注目的几许形状

鉴于此，论文对参阅视图周围的相机姿势进行随机采样，并对参阅视图和未可见视图的烘托图画 $G\mathcal{G}_{\theta}$ 施加以下束缚:

Reference view per-pixel loss

优化后的三维表明应该与输入观测x在参阅视图上的烘托成果十分类似，因而惩罚NeRF烘托图画和输入图画之间的像素级差异：

其间运用前景matting mask $m$ 来分割前景。

Diffusion prior

新视图烘托应该显现与输入共同的语义，为了处理这个问题，论文运用一个图画字幕模型，为参阅图画生成具体的文本描述 $y$ 。有了文本提示 $y$ ，可以在Stable Diffusion的潜空间上履行 $LSDS\mathcal{L}_{\text {SDS }}$ (运用text conditioned分散模型作为3D感知先验），度量图画和给定文本提示符之间的类似性:

尽管 $LSDS\mathcal{L}_{\text {SDS }}$ 可以生成忠诚于文本提示的3D模型，但它们并不能与参阅图画彻底对齐（参见图3中的baseline），因为文本提示不能捕获所有的方针细节。因而，论文额外添加一个分散CLIP丢失，记为 $LCLIP-D\mathcal{L}_{\text {CLIP-D }}$ ，它进一步强制生成的模型来匹配参阅图画：

具体来说，论文并没有一起优化 $LCLIP-D\mathcal{L}_{\text {CLIP-D }}$ 和 $LSDS\mathcal{L}_{\text {SDS }}$ 。**论文在小timesteps运用 $LCLIP-D\mathcal{L}_{\text {CLIP-D }}$ ，在大timesteps切换到 $LSDS\mathcal{L}_{\text {SDS }}$ 。**结合LSDS和LCLIP-D，论文的分散先验确保了生成的3D模型在视觉上是吸引人的和可信的，一起也契合给定的图画（见图3）。

Depth prior

此外，模型依然存在形状含糊，从而导致比如洼陷面、过平面几许或深度含糊等问题（见图3）。为了处理这个问题，论文运用一个**现有的单目深度估计模型来估计输入图画的深度 $d$ 。**为解释 $d$ 中的不准确性和标准不匹配，论文正则化了NeRF在参阅角度上的估计深度 $d(ref)d\left(\beta_{\mathrm{ref}}\right)$ 和单目深度 $d$ 之间的negative Pearson correlation，即：

Overall training

终究总的丢失可以表述为 $Lref\mathcal{L}_{\text {ref }}$ 、 $LSDS\mathcal{L}_{\text {SDS }}$ 、 $LCLIP-D\mathcal{L}_{\text {CLIP-D }}$ 和 $Ldepth\mathcal{L}_{\text {depth }}$ 的组合。为了稳定优化过程，论文选用了渐进式练习战略，在参阅视图邻近从一个狭隘的视图规模开始，在练习过程中逐步扩大规模。经过渐进式的练习，论文可以完成一个360的物体重建，如图4所示。

Refine Stage: Neural Texture Enhancement

在coarse stage，咱们获得了一个具有合理几许形状的3D模型，但通常显现出粗糙的纹路，可能会影响全体质量。因而，需求进一步细化以获得高保真度的3D模型。

论文的首要思路是在保留粗糙模型几许形状的一起，优先进行纹路增强。咱们运用新视角和参阅视角中可观察到的堆叠区域来将参阅图画的高质量纹路映射到3D表明中。然后，论文着重于增强参阅视角中被遮挡区域的纹路。为了更好地完成这一过程，论文将神经辐射场导出到显式表明方式——点云。与Marching Cube导出的噪声网格比较，点云供给了更明晰和更直接的投影。

Textured point cloud building

直接从NeRF烘托多视图RGBD图画并将其提升到三维空间中的纹路点的朴素测验会发生噪声的点云，因为不同视角下的NeRF烘托可能会给同一3D点赋予不同的RGB色彩。为了处理这个问题，论文提出了一种迭代战略来从多视图观测中构建干净的点云。论文首要依据NeRF的烘托深度 $D(ref)D(\beta_{ref})$ 和alpha掩模 $M(ref)M(\beta_{ref})$ 从参阅视图 $ref\beta_{ref}$ 中构建点云，如图5所示:

其间 $R$ , $K$ 为表里参， $P\mathcal{P}$ 表明深度到点云的投影。

关于其他视图 $i\beta_{\mathrm{i}}$ 的投影，有必要避免引进与现有点堆叠但色彩冲突的点。为此，论文将现有的点 $V(ref)V\left(\beta_{\mathrm{ref}}\right)$ 投影到新的视图 $i\beta_{\mathrm{i}}$ 中，以发生一个指示现有点存在位置的掩模。以这个掩模作为指导，论文只给现有的点云弥补那些尚未观察到的点 $V(i)V\left(\beta_{\mathrm{i}}\right)$ ，如图5所示。然后用粗糙NeRF烘托的粗糙纹路初始化这些看不见的点，并集成到现有的密集点云中。

Deferred point cloud rendering

依照前文办法，尽管密集点云中的 $V(ref)V\left(\beta_{\mathrm{ref}}\right)$ 已经有了从参阅图画投影出来的高保真纹路，但在参阅视图中被遮挡的其他点 $V(i)V\left(\beta_{\mathrm{i}}\right)$ 依然遭受了来自粗糙NeRF的滑润纹路，如图6所示。为了增强其他点的纹路以增强模型的视觉作用，论文优化了 $V(i)V\left(\beta_{\mathrm{i}}\right)$ 的纹路，并运用分散先验束缚了新视图烘托。具体地，关于每个点，优化一个19维的描述符，其间前三个维度初始化为初始RGB色彩，并选用多标准延迟烘托方案，运用一个U-Net烘托器联合优化来烘托特征图并得到终究图画：

实验

Comparisons with the State of the Arts

Baselines

论文将所提办法与五个代表性baseline进行比较。

DietNeRF，一个少样本的NeRF模型。运用三个输入视图进行练习
SinNeRF，一个单视图NeRF模型
DreamFusion，因为它最初是根据文本提示进行条件化的，论文还运用图画重建丢失在参阅视图上修正它，称为DreamFusion+，以进行公正比较
Point-E，根据图画的点云生成模型
3D-Photo，深度图画配准和修正办法

Qualitative comparison

与三维生成baseline DreamFusion和DreamFusion+进行比较，如图7所示，它们生成的模型未能与参阅图画彻底对齐，一起具有滑润的纹路。比较之下，论文的办法发生了具有精细几许和逼真纹路的高保真度三维模型。
图8展现了关于新视角组成的额外比较。SinNeRF和DietNeRF因为缺乏多视角监督而难以重建杂乱方针。3D-Photo则无法重建底层几许形状，并在大视角下发生显着的伪影。比较之下，论文的办法在新视角下完成了十分准确的几许形状和视觉上令人愉悦的纹路。

Quantitative comparison

生成的3D模型应该在参阅视图上与输入图画十分类似，并且在新视角下展现与参阅相共同的语义。论文运用以下指标来评价这两个方面：

LPIPS，评价在参阅视图上的重建质量
上下文距离，测量新视角烘托和参阅之间的像素级类似性
CLIP分数，评价新视角与参阅之间的语义类似性

表1和表2显现，论文的办法在参阅视图和新视角质量方面显着优于baseline办法。

使用

Real scene modeling

如图9所示，Make-It-3D可以成功将杂乱场景的单张相片转换为3D模型，例如建筑和风景。这运用户可以轻松地建模，而这关于一些传统的3D建模技能可能很困难。

High-quality text-to-3D generation with diversity

在从前的研讨中，传统的办法常常会生成具有有限多样性和过于光滑的纹路的模型。为了完成高质量的文本到3D的转换，论文首要运用2D分散将文本提示转换为参阅图画，然后再进行根据图画的3D创立办法。如图10所示，Make-It-3D可以从文本提示生成多样化的3D模型，并展现出惊人的质量。

3D-aware texture modification

Make-It-3D可以经过在细化阶段中操作参阅图画而冻住几许结构来完成视角共同的纹路修正。如图11所示，论文可以为生成的3D模型添加纹身并使用样式化作用。

总结

论文介绍了Make-It-3D，这是一种新颖的两阶段的办法，可以从单个图画创立高保真度的三维内容。运用分散先验作为三维感知监督，经过分散CLIP丢失和纹路点云增强，生成的3D模型展现了契合预期的几许形状和逼真的纹路。Make-It-3D适用于一般方针，赋予了多样的迷人使用。研讨者相信论文的办法在将2D内容创作的成功扩展到3D方面迈出了重要一步，为用户供给了全新的3D创作体会。

重视咱们

CVHub是一家专注于计算机视觉范畴的高质量常识共享渠道:

全站技能文章原创率达99%！
每日为您呈献全方位、多范畴、有深度的前沿AI论文处理及配套的行业级使用处理方案，供给科研 | 技能 | 工作一站式服务！
包含有监督/半监督/无监督/自监督的各类2D/3D的检测/分类/分割/跟踪/姿势/超分/重建等全栈范畴以及最新的AIGC等生成式模型！

重视微信大众号，欢迎参与实时的学术&技能互动交流，收取学习大礼包，及时订阅最新的国表里大厂校招&社招资讯！

即日起，CVHub 正式开通常识星球，首期供给以下服务：

本星球主打常识问答服务，包含但不仅限于算法原理、项目实战、职业规划、科研思想等。
本星球秉持高质量AI技能共享，包含：每日优质论文速递，优质论文解读与常识点总结等。
本星球力邀各行业AI大佬，供给各行业经历共享，星球内部成员可深度了解各行业学术/工业最新进展。
本星球不定期共享学术论文思路，包含但不限于Challenge剖析，立异点挖掘，实验装备，写作经历等。
本星球供给很多 AI 岗位工作招聘资源，包含但不限于CV，NLP，AIGC等；一起不定期共享各类实用工具、干货材料等。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。