Pic2Word:将图片映射到单词以进行零样本合成图像检索

图画检索在查找引擎中起着至关重要的作用。一般,他们的用户依靠图画或文本作为查询来检索所需的方针图画。然而,依据文本的检索有其局限性,由于运用单词准确描绘方针图画或许具有挑战性。例如,在查找时髦产品时,用户或许想要其特定特点(例如徽标的色彩或徽标自身)与他们在网站中找到的物品不同的产品。然而,在现有查找引擎中查找该产品并非易事,由于经过文本准确描绘时髦产品或许具有挑战性。为了处理这一事实,组合图画检索 (CIR) 依据一个查询来检索图画,该查询结合了图画和文本示例,该示例提供了有关怎么修改图画以习惯预期检索方针的阐明。因而,CIR答应经过组合图画和文本来准确检索方针图画。

然而,CIR 办法需求大量的符号数据,即 1) 查询图画、2) 描绘和 3) 方针图画的三元组。收集此类符号数据的成本很高,并且依据这些数据练习的模型一般是针对特定用例量身定制的,这限制了它们推广到不同数据集的才能。

为了应对这些挑战,在“ Pic2Word:将图片映射到单词以进行零镜头组成图画检索 ”中,咱们提出了一项称为零镜头CIR(ZS-CIR)的使命。在ZS-CIR中,咱们的方针是构建一个履行各种CIR使命的CIR模型,例如方针组合,特点编辑或域转化,而无需符号三元组数据。相反,咱们主张运用大规模图画标题对和未符号图画来练习检索模型,这比大规模监督CIR数据集更简单收集。为了鼓励可重复性并进一步推动这一范畴,咱们还发布了代码。

Pic2Word:将图片映射到单词以进行零样本合成图像检索
现有组合图画检索模型的描绘。
Pic2Word:将图片映射到单词以进行零样本合成图像检索
咱们仅运用图画标题数据练习组合图画检索模型。咱们的模型检索与查询图画和文本的组成对齐的图画。

办法概述

咱们主张在比照言语图画预练习模型(CLIP)中运用言语编码器的言语功能,该模型拿手为广泛的文本概念和特点生成语义上有意义的言语嵌入。为此,咱们在 CLIP 中运用了一个轻量级映射子模块,该子模块旨在将输入图片(例如,猫的照片)从图画嵌入空间映射到文本输入空间中的单词符号(例如,“猫”)。整个网络经过视觉言语比照丢失进行了优化,以再次保证视觉和文本嵌入空间在给定一对图画及其文本描绘的情况下尽或许挨近。然后,可以将查询图画视为单词。这使得言语编码器可以灵敏、无缝地组合查询图画特征和文本阐明。咱们将咱们的办法称为 Pic2Word,并鄙人图中概述了其练习进程。咱们希望映射的令牌以单词符号的方式表示输入图画。然后,咱们练习映射网络以重建言语嵌入中的图画嵌入p。具体来说,咱们优化了CLIP中提出的视觉嵌入v和文本嵌入p之间的比照丢失。

Pic2Word:将图片映射到单词以进行零样本合成图像检索
仅运用未符号图画练习映射网络(f M)。咱们仅运用冻住的可视和文本编码器优化映射网络。

给定经过练习的映射网络,咱们可以将图画视为单词符号,并将其与文本描绘配对,以灵敏地组成图-文本联合查询,如下图所示。

Pic2Word:将图片映射到单词以进行零样本合成图像检索
经过经过练习的映射网络,咱们将图画视为单词符号,并将其与文本描绘配对,以灵敏地组成图画-文本联合查询。

点评

咱们进行了各种试验来评价Pic2Word在各种CIR使命上的体现。

域名转化

咱们首要评价所提出的办法在域转化方面的组合才能 – 给定图画和所需的新图画域(例如,雕塑,折纸,卡通,玩具),系统的输出应该是具有相同内容但具有新期望图画域或样式的图画。如下图所示,咱们评价了分别以图画和文本方式组合类别信息和域描绘的才能。咱们运用ImageNet和ImageNet-R评价从真实图画到四个域的转化。

为了与不需求监督练习数据的办法进行比较,咱们挑选了三种办法:(i)图画仅运用视觉嵌入履行检索,(ii)文本仅运用文本嵌入,以及(iii)图画+文本均匀视觉和文本嵌入以组成查询。与(iii)的比较显现了运用言语编码器撰写图画和文本的重要性。咱们还与Combiner进行了比较,Combiner在Fashion-IQ或CIRR上练习CIR模型。

Pic2Word:将图片映射到单词以进行零样本合成图像检索
咱们的方针是将输入查询图画的域转化为用文本描绘的域,例如折纸。

如下图所示,咱们提出的办法大大优于基线

Pic2Word:将图片映射到单词以进行零样本合成图像检索
组合图画检索的成果(回想@10,即检索到的前10张图画中相关实例的百分比)以进行域转化。

时髦特点构成

接下来,咱们运用 Fashion-IQ 数据集评价时髦特点的组成,例如布料的色彩、徽标和袖子的长度。下图阐明晰给定查询的所需输出。

Pic2Word:将图片映射到单词以进行零样本合成图像检索
时髦特点的CIR概述。

鄙人图中,咱们提供了与基线的比较,包含运用三元组来练习CIR模型的监督基线:(i)CB运用与咱们的办法相同的架构,(ii)CIRPLANT,ALTEMIS,MAAF运用较小的骨干,例如ResNet50。与这些办法进行比较将使咱们可以了解咱们的零镜头办法在这项使命上的体现怎么。

虽然CB优于咱们的办法,但咱们的办法比具有较小骨干的监督基线体现更好。这一成果表明,经过运用鲁棒的CLIP模型,咱们可以练习一个高效的CIR模型,而无需注释的三元组。

Pic2Word:将图片映射到单词以进行零样本合成图像检索
Fashion-IQ 数据集组合图画检索的成果(回想一下@10,即检索到的前 10 张图画中相关实例的百分比)(越高越好)。浅蓝色条运用三元组练习模型。请注意,咱们的办法与这些具有浅(较小)骨干的监督基线适当。

定性成果

咱们鄙人图中展现了几个示例。与不需求监督练习数据(文本+图画特征均匀)的基线办法比较,咱们的办法在正确检索方针图画方面做得更好。

Pic2Word:将图片映射到单词以进行零样本合成图像检索
各种查询图画和文本描绘的定性成果。

定论和今后的作业

在本文中,咱们介绍了Pic2Word,这是一种将图片映射到ZS-CIR单词的办法。咱们主张将图画转化为单词符号,以仅运用图画标题数据集来完成CIR模型。经过各种试验,咱们验证了练习模型在不同CIR使命上的有效性,表明在图画标题数据集上进行练习可以构建强大的CIR模型。一个潜在的未来研究方向是运用标题数据来练习映射网络,尽管咱们在现在的作业中只运用图画数据。