最新开源！协同多视图和跨模式对比学习以增强3D表示：MIXCON3D

作者：巴巴塔 | 来历：3DCV

1、导读

因为3D数据获取本钱昂扬，现有的3D数据集的多样性和复杂性有限。为了解决数据稀缺的问题，最近的研讨开始运用练习良好的2D基础模型来学习3D形状。这些办法主要建立在CLIP模型的基础上，经过练习大规划的图画-文本对来学习知识，并在零样本3D识别使命中取得了显著的功能进步。然而，现有办法主要重视单个模态的特征对齐，忽视了不同模态和视角之间的复杂关系。因而，咱们提出了一种新的联合表明对齐办法，经过创立图画和点云的组合表明来丰厚传统的三模态表明，然后更精确地描绘实在国际的3D方针，并增强文本对齐。此外，本文还探究了不同的练习办法，建立了一个强壮的基线模型，并在多个基准数据集进步行了广泛的实验证明了办法的有效性。

2、研讨思路

本研讨的研讨思路主要包含以下几个方面：

根据CLIP模型的三维形状了解：学习CLIP模型在图画了解方面的成功，本研讨将CLIP模型应用于三维形状了解。经过在网络规划的数据进步行练习，CLIP模型可以学习到丰厚的知识，有助于三维形状的学习。
图画和点云的联合表明对齐：本研讨提出了一种图画和点云的联合表明对齐机制，将二维和三维传感器捕捉到的互补信息进行聚合，并与文本特征进行对齐，然后进步了三维表明的精确性。
多视角图画的运用：本研讨运用多视角图画全面反映了实在的三维国际，并进步了图画的表明质量。经过运用多视角图画，可以更好地对齐点云和图画，进一步进步了三维表明的作用。经过以上研讨思路，本研讨成功解决了三维表明中存在的问题，提出了一种新颖的办法，可以更好地运用多模态和多视角信息，进步三维物体的了解才能。

3、研讨内容

MixCon3D，经过将多视角图画和跨模态比照学习相结合，进步了三维物体的表明才能。针对现有的比照学习办法主要重视单个模态的特征对齐问题，提出了一种新的联合表明对齐办法，将图画和点云的特征进行交融，然后更精确地描绘实在国际中的三维物体，并增强文本对齐才能。此外，还对三维比照学习的不同练习策略进行了全面的研讨，建立了一个功能更好、具有更好泛化才能的基准模型。

4、办法

MixCon3D是一种结合多视角和跨模态比照学习的办法，用于增强三维表明。它经过从二维图画和三维点云中提取特征，构建统一的表明，然后更全面地描绘实在国际的三维方针，并经过添加比照丢失来增强与文本的对齐。此外，MixCon3D经过从多视角图画中提取特征，保证对三维方针的全面捕捉，然后加强跨模态对齐。经过对练习进程（包含批量巨细、温度参数和学习率调度等）进行仔细的研讨，咱们建立了一个先进的练习攻略。这不只安稳了练习进程，还进步了功能。

4.1、图画-文本-3D比照学习

首要回忆了图画-文本-3D比照学习的基本原理。经过运用从网络上爬取的很多图画-文本对，CLIP模型展现了超卓的敞开国际图画了解才能。通常情况下，给定批量的图画-文本对 ${(xiI,xiT)}i=1Nleft{(x_{i}^{I},x_{i}^{T})right}_{i=1}^{N}$ 以及（image, text）编码器( $f^{I} ,f^{T})$ 和相应的投影头 $g^{I} ,g^{T})$ ，CLIP经过比照丢失函数 $LI↔Tmathcal{L}^{Ileftrightarrow T}$ 进行练习，详细如下：

其中是可学习的温度参数， $ziI=gI∘fI(xiI)/∥gI∘fI(xiI)∥z_{i}^{I}=g^{I}circ f^{I}(x_{i}^{I})/left|g^{I}circ f^{I}(x_{i}^{I})right|$ ， $ziT=gT∘fT(xiT)/∥gT∘fT(xiT)∥z_{i}^{T}=g^{T}circ f^{T}(x_{i}^{T})/left|g^{T}circ f^{T}(x_{i}^{T})right|$ 是投影头输出的 $L 2$ 归一化的(image,text)特征。因为3D数据集的规划十分有限，从前的研讨运用预练习的CLIP图画和文本嵌入空间来练习具有敞开国际识别才能的本地3D模型 $gP∘fPg^{P}circ f^{P}$ （包含3D编码器 $f^{P}$ 和投影头 $g^{P}$ ）。因为CLIP是在更大规划的数据进步行预练习而且更好地对齐，因而在练习进程中，其图画模型 $gI∘fIg^{I}circ f^{I}$ 和文本模型 $gT∘fTg^{T}circ f^{T}$ 被冻住。详细来说，给定批量 $N$ 的输入图画 $x_{i}^{T}$ ，文本 $x_{i}^{T}$ 和点云 $x_{i}^{P}$ 三元组 ${(xiI,xiT,xiP)}i=1Nleft{(x_{i}^{I},x_{i}^{T},x_{i}^{P})right}_{i=1}^{N}$ （因而被称为图画-文本-3D），3D模型 $gP∘fPg^{P}circ f^{P}$ 被练习以将点云表明 $ziP=fP(xiP)/∥fP(xiP)∥z_{i}^{P}=f^P(x_{i}^{P})/left|f^P(x_{i}^{P})right|$ 与CLIP嵌入空间对齐。在这种情况下，优化方针变为：

4.2、从头审视练习办法

在从头审视练习办法之前，咱们需要了解一下ULIP和OpenShape的练习办法。这两种办法都是根据比照学习的图画-文本-3D对齐的范式。ULIP的练习办法采用了同享温度参数和批量巨细的办法，而OpenShape则采用了同享批量巨细和学习率的办法。这些办法在3D表明学习中取得了显著的功能进步。然而，咱们发现这些练习办法打在一些方面仍有改善的空间。详细来说，咱们提出了以下几点改善：

批量巨细（Batchsize）：比照学习获益于较大的批量巨细。因而，咱们主张添加批量巨细以进步功能。
学习率调度（Learning Rate Schedule）：咱们主张采用余弦衰减（Cosine Decay）的学习率调度办法，这种办法可以更好地操控模型的学习速度。
温度参数（Temperature Parameter）：咱们主张将温度参数设置为可学习的参数，以便模型可以自适应地调整比照丢失的权重。
预热（Warm up）：咱们主张在练习的前几个epoch中进行预热，即逐渐添加学习率，以帮助模型更快地收敛。
指数移动均匀（EMA）：咱们主张运用指数移动均匀来平滑模型的更新，以进步模型的安稳性和泛化才能。经过这些改善，咱们可以显著进步基线模型的功能和泛化才能。

4.3、联合表明对齐

在MixCon3D中，咱们引入了一种新的联合表明对齐办法，即图画-3D到文本的联合表明对齐。这个机制经过创立图画和点云的新组合表明来丰厚传统的三模态表明，然后供给更精确的实在国际3D方针描绘，并增强文本对齐。详细而言，咱们在冻住的CLIP编码器上添加了另一个图画到文本的对齐丢失 $LP↔Tmathcal{L}^{Pleftrightarrow T}$ ，并在其上添加了一个可学习的投影头。经过咱们的联合对齐丢失，咱们发现 $LP↔Tmathcal{L}^{Pleftrightarrow T}$ 丢失可以进一步进步功能，突显了图画和点云表明交融的关键作用。

4.4、多视图机制的协同作用

MixCon3D的办法，经过结合多视角和跨模态比照学习，以最大化图画、文本和点云之间的比照学习的作用和潜力。在这种办法中，多视角图画的特征被用来供给更全面的三维物体表明。详细而言，给定一组多视角图画 $xiI={x(i,j)I}j=1Mx_{i}^{I} = left {x_{(i,j)}^{I}right }_{j=1}^{M}$ ，对应于文本描绘 $x_{i}^{T}$ 和点云 $x_{i}^{P}$ ，作者运用从各个视角提取的特征zI (i,j)来替换单视角图画特征 $z_{i}^{I}$ 。

为了聚合多视角信息，作者采用了视角池化的办法。经过这种办法，可以取得更全面的三维物体表明，然后进步了对三维物体的描绘才能。这种多视图机制与之前的ULIP和OpenShape办法不同，ULIP和OpenShape办法在创立数据三元组时会从渲染的多视角图画中采样一个图画，但在提取图画特征时只运用了这个采样的图画，这样只能编码三维物体的部分方面。而MixCon3D办法则充分运用了从多视角图画中累积的特征，以取得更全面的三维物体表明。

5、实验成果

本研讨采用了混合比照学习办法（MixCon3D）来增强三维表明。详细而言，咱们提出了一种新颖的联合表明对齐办法，经过创立图画和点云的组合表明来丰厚传统的三模态表明，然后更精确地描绘实在国际的三维方针并增强文本对齐。此外，咱们还整合了多视图图画，供给了更全面的表明。咱们还对三维比照学习范式的各种练习办法进行了全面的研讨，建立了一个具有改善功能和泛化才能的强基线。咱们在三个代表性基准测验进步行了很多实验证明，咱们的办法在具有挑战性的1,156个类别的Objaverse-LVIS数据集上的功能比基线进步了5.7%。咱们还展现了咱们办法在文本到三维检索和点云字幕生成等更多应用中的有效性。