机器之心报导

机器之心编辑部

DINOv2 无需微调就能用于多种视觉使命。

开源了「切割全部」的 SAM 模型后,Meta 在「视觉根底模型」的路上越走越远。

这次,他们开源的是一组名叫 DINOv2 的模型。这些模型能发生高性能的视觉表征,无需微调就能用于分类、切割、图画检索、深度估量等下游使命。

离视觉大一统更近一步:分割一切之后,Meta又开源一组多用途大模型

这组模型具有如下特征:

  • 运用自监督的方式进行练习,而不需求很多的标记数据;
  • 能够用作几乎所有 CV 使命的主干,不需求微调,如图画分类、切割、图画检索和深度估量;
  • 直接从图画中学习特征,而不依赖文本描述,这能够使模型更好地了解局部信息;
  • 能够从任何图画调会集学习;
  • DINOv2 的预练习版本已经可用,并能够在一系列使命上比美 CLIP 和 OpenCLIP。

离视觉大一统更近一步:分割一切之后,Meta又开源一组多用途大模型

  • 论文链接:arxiv.org/pdf/2304.07…
  • 项目链接:dinov2.metademolab.com/

论文概览

学习非特定使命的预练习表明已成为自然语言处理的标准。我们能够「按原样」运用这些功用(无需微调),而且它们在下游使命上的表现明显优于特定使命模型的性能。这一成功得益于运用辅佐目标对很多原始文本进行预练习,例如语言建模或词向量,这些不需求监督。

随着 NLP 范畴发生这种范式改变,估计相似的「根底」模型将呈现在计算机视觉中。这些模型应该生成在任何使命上「开箱即用」的视觉特征,无论是在图画等级(例如图画分类)仍是像素等级(例如切割)。

这些根底模型有很大期望能够会集在文本引导(text-guided)的预练习上,即运用一种文本监督的方式来辅导特征的练习。这种方式的文本引导预练习约束了能够保存的有关图画的信息,由于标题仅近似于图画中的丰厚信息,而且更精细、杂乱的像素级信息或许无法经过此监督被发现。此外,这些图画编码器需求已经对齐好的文本 – 图画语料库,不能供给其文本对应物的灵活性,也就是说不能仅从原始数据中学习。

文本引导预练习的代替办法是自监督学习,其间特征仅从图画中学习。这些办法在概念上更挨近语言建模等前置使命,而且能够在图画和像素等级捕获信息。但是,尽管它们有或许去学习通用特征,但自监督学习的大部分效果进步都是在小型精编数据集 ImageNet1k 的预练习布景下获得的。一些研究人员已经测验将这些办法扩展到 ImageNet-1k 之外的一些努力,但他们专注于未经挑选的数据集,这通常会导致性能质量明显下降。这是由于缺少对数据质量和多样性的控制,而数据质量和多样性对于发生杰出的成果至关重要。

在这项工作中,研究者探讨了如果在很多精编数据上进行预练习,自监督学习是否有或许去学习通用的视觉特征。它们从头审视了现有的在图画和 patch 等级学习特征的判别性自监督办法,例如 iBOT,并在更大数据集下从头考虑他们的一些规划挑选。研究者的大多数技能奉献都是为了在扩展模型和数据大小时安稳和加快判别性自监督学习而量身定制的。这些改善使他们办法的速度进步到了相似的判别性自监督办法的 2 倍左右,需求的内存削减到了后者的 1/3,使他们能够利用更长的练习和更大的 batch size。

关于预练习数据,他们构建了一个自动 pipeline ,用于从很多未经挑选的图画调会集过滤和从头平衡数据集。这个创意来自 NLP 中运用的 pipeline ,其间运用数据相似性而不是外部元数据,而且不需求手动注释。在处理图画时的一个首要困难是从头平衡概念而且要防止在一些主导模式下呈现过拟合。在这项工作中,朴素聚类办法能够很好地处理此问题,研究人员们收集了一个由 142M 图画组成的小而多样化的语料库来验证他们的办法。

最终,研究者们供给了各种预练习的视觉模型,称为 DINOv2,在他们的数据上运用不同的视觉 Transformer(ViT)架构进行练习。他们发布了所有模型和代码,以在任何数据上从头练习 DINOv2。在扩展时,他们在图画和像素等级的各种计算机视觉基准测验上验证了 DINOv2 的质量,如图 2 所示。最终研究者们得出结论,独自的自监督预练习是学习可迁移冻结特征的杰出候选者,可比美最好的公开可用的弱监督模型。

离视觉大一统更近一步:分割一切之后,Meta又开源一组多用途大模型

数据处理

研究者经过从很多未挑选的数据中检索与多个精编数据会集的图画挨近的图画来拼装他们的精编 LVD-142M 数据集。他们在论文中介绍了数据管道中的首要组成部分,包含精选 / 未挑选的数据源、图画重复数据删去过程和检索系统。整条 pipeline 不需求任何元数据或文本,直接处理图画,如图 3 所示。请读者参看附录 A,了解有关模型办法的更多详细信息。

离视觉大一统更近一步:分割一切之后,Meta又开源一组多用途大模型

图 3:数据处理的 pipeline 概述。来自精编和非精编的数据源的图画首要被映射到嵌入。然后,非精编的图画在与标准图画匹配之前对重复数据删去。由此发生的组合经过自监督检索系统进一步丰厚扩大了初始数据集。

判别性自监督预练习

研究人员经过一种判别性的自监督办法学习他们的特征,该办法能够看作是 DINO 和 iBOT 损失的结合,并以 SwAV 为中心。他们还添加了一个正则化器来传播特征和一个简略的高分辨率练习阶段。

高效完成

他们考虑了几项改善,以在更大范围内练习模型。运用 PyTorch 2.0 在 A100 GPU 上练习模型,该代码也可与用于特征提取的预练习模型一同运用。模型的详细信息在附录表 17 中。在相同的硬件下,与 iBOT 完成相比,DINOv2 代码仅运用 1/3 的内存,运转速度进步到了前者的 2 倍。

离视觉大一统更近一步:分割一切之后,Meta又开源一组多用途大模型

实验成果

在本节中,研究者将介绍新模型在许多图画了解使命上的实证评价。他们评价了全局和局部图画表明,包含类别和实例级辨认、语义切割、单目深度预测和动作辨认。

ImageNet 分类

离视觉大一统更近一步:分割一切之后,Meta又开源一组多用途大模型
离视觉大一统更近一步:分割一切之后,Meta又开源一组多用途大模型
离视觉大一统更近一步:分割一切之后,Meta又开源一组多用途大模型

其他图画和视频分类基准

离视觉大一统更近一步:分割一切之后,Meta又开源一组多用途大模型
离视觉大一统更近一步:分割一切之后,Meta又开源一组多用途大模型

实例辨认

离视觉大一统更近一步:分割一切之后,Meta又开源一组多用途大模型

密集辨认使命

离视觉大一统更近一步:分割一切之后,Meta又开源一组多用途大模型
离视觉大一统更近一步:分割一切之后,Meta又开源一组多用途大模型

定性成果

离视觉大一统更近一步:分割一切之后,Meta又开源一组多用途大模型
离视觉大一统更近一步:分割一切之后,Meta又开源一组多用途大模型
离视觉大一统更近一步:分割一切之后,Meta又开源一组多用途大模型