2023年5月6日,OpenAI悄悄的发布了文字生成3D的模型Shap.E,而且在Github上开源的模型。

OpenAI总裁发推:

OpenAI放出最新文字生成3D模型Shap.E,公开论文、模型和代码!

文字生成3D一直Generative AI范畴的下一个明珠,就在最近Midjourney也被报导正在进行相关研讨,OpenAI和各家大厂也进行过相似的研讨。

text to 3d是一种将文本描绘转化为三维模型的技术,近年来有许多研讨机构和公司在这方面进行了探究和创新:

  • Magic3D:这是NVIDIA研讨院的一个新的text to 3d内容创造东西,它能够创建高质量的三维网格模型,而且支持图画条件生成和根据提示的修改。它利用了低分辨率和高分辨率的分散模型,以及一个高效的可微烘托器,来优化神经辐射场(NeRF),从而完成了比DreamFusion更快更明晰的text to 3d组成效果。
  • Point-E:这是OpenAI发布的一个text to 3d生成器,它能够从文本输入生成点云模型,而不是网格或外表模型。它的长处是生成速度快,核算资源少,只需求一块GPU就能够在几分钟内完成text to 3d转化。它还能够与OpenAI的点云到网格模型结合,从而得到更完整的三维模型。
  • Imagen:这是Google开发的一个神经网络,它能够从文本描绘生成三维模型,而且不需求人工标注数据。它根据一个预练习的图画生成模型,经过自注意力机制和对立学习,来学习文本和图画之间的对应联系,而且能够处理杂乱和抽象的文本输入。

OpenAI放出最新文字生成3D模型Shap.E,公开论文、模型和代码!

OpenAI发布了详细的论文,以及在Github上发布了模型。

github.com/openai/shap…

OpenAI放出最新文字生成3D模型Shap.E,公开论文、模型和代码!

OpenAI放出最新文字生成3D模型Shap.E,公开论文、模型和代码!

依据论文的内容:

作者们提出了一种名为ShapE的3D生成模型。ShapE与其他3D生成模型的不同之处在于,它能够一起生成两种类型的3D表明:纹路网格(textured meshes)和神经辐射场(neural radiance fields)。这使得生成的3D模型能够经过多种办法烘托或导入其他3D使用程序。

为了完成这一目标,作者们分两个阶段练习ShapE模型。首要,他们练习一个编码器,将3D资源确定性地映射到隐含函数的参数。其次,他们在编码器的输出上练习一个条件分散模型。在大量成对的3D和文本数据集上练习后,ShapE能够在短短几秒钟内生成杂乱且多样化的3D资源。

与最近提出的根据点云的显式3D生成模型PointE比较,ShapE收敛得更快,并在相同的模型架构、数据集和条件机制下完成了可比较甚至更好的样本质量。有趣的是,ShapE和PointE在图画条件下的成功和失利事例相似,这表明不同的输出表明办法或许会导致相似的模型行为。然而,在直接使用文本描绘进行条件化时,两者之间仍是存在一些质量上的差异。

尽管ShapE模型在文本条件下的3D生成样本质量仍不如根据优化的办法,但其推理时间比这些办法快得多,从而或许完成更优的性能权衡。作者在github.com/openai/shap…

作者将ShapE与其他3D生成技术进行了比较,使用了CLIP R-Precision指标(见表2)。正如Nichol等人所做的那样,他们在这个表格中包含了采样延迟,以强调根据优化的办法在生成质量上的优越性是以明显的推理成本为价值的。

值得注意的是,ShapE的推理速度比PointE更快,由于ShapE不需求额定的上采样分散模型。

作者也提到了模型目前的缺点包含:

首要,尽管根据文本的模型能够了解许多具有简略特点的单个物体,但它在组合概念方面的才能有限。例如,该模型在处理需求计数和特点绑定的提示时或许会遇到困难。这些问题或许是由于有限的成对练习数据所导致的,经过搜集或生成更大的带注释的3D数据集或许有助于解决这些问题。

其次,尽管ShapE一般能够生成可识别的3D财物,但生成的样本一般看起来粗糙或缺少细节。例如,编码器有时会丢失详细的纹路(如仙人掌上的条纹),这表明改进的编码器或许有助于恢复一些丢失的生成质量。

文字生成3D的研讨尽管还不如图片成熟,可是这是一个非常重要的方向由于:

  • 它能够提高三维内容创造的功率和质量:text to 3d能够让用户经过简略的文本描绘来生成高质量的三维模型,而不需求杂乱的建模软件或专业的设计技术。text to 3d还能够结合图画条件生成和根据提示的修改,让用户更好地控制三维组成的过程和结果。text to 3d能够为各种范畴供给更快速、更便捷、更创新的三维内容创造东西。
  • 它能够拓宽三维内容的使用场景和价值:text to 3d能够将文本转化为不同格局的三维模型,如网格、点云、神经辐射场等,合适用于不同的使用场景,如游戏、动画、教育、文娱等。text to 3d还能够与其他技术结合,如虚拟实际、增强实际、3D打印等,为用户供给更丰富和更沉溺的三维体验。
  • 它能够促进三维内容的同享和交流:text to 3d能够将文本作为一种通用和易于了解的媒介,来表达和传递三维内容。text to 3d能够让用户经过文原本搜索、阅读、评论、修改或生成三维内容,而不需求下载或装置任何软件或数据。text to 3d能够为用户供给更方便和更友爱的三维内容同享和交流平台。