摘要:

在CVPR2022上,小红书多模态算法组提出一种新颖的用于行人重辨认的网络Neighbor Transformer (NFormer),差异于传统的行人重辨认网络只是对单张图片进行建模,NFormer对通过transformer对多张输入图画进行交互式建模以取得鲁棒的特征表达,除此之外,NFormer还提出了Landmark Agent Attention 和Reciprocal Neighbor Softmax模块来降低多张图片交互建模时的核算复杂度。试验标明NFormer在多个数据集上功能体现SOTA(state-of-the-art)!

1.布景

在小红书,大规模图画检索技能运用于搜同款穿搭、类似图片等多项业务中,行人重辨认(Person re-identification)作为图画检索中的的一个重要子问题,是指运用用核算机视觉技能判别图画或者视频序列中是否存在特定行人的技能。在真实场运用场景中,因为行人外观易受穿着、标准、遮挡、姿势和视角等影响,以及不同摄像设备之间成像效果的差异,使得行人重辨认成为核算机视觉研讨领域中一个极具挑战性的抢手课题。

CVPR2022 |小红书首创多图交互建模挑战热门研究课题,大幅提升行人重识别性能

得益于深度学习,尤其是卷积神经网络(Convolutional neural network, CNN)的快速发展,现在干流的行人重辨认的办法均基于表征学习框架,即基于Metric Learning技能,来学习行人的向量化表征。在练习时,网络要求将归于同一ID的行人特征聚集的一起将不同ID的行人的特征区分隔。在检索时,首先运用网络提取数据库中一切行人的特征构成底库,再将待查询的行人特征与底库特征进行匹配来完成检索。

在传统办法中,网络只是考虑从单张图片中获取表征,疏忽了图片间潜在的关联, 但是咱们以为这种关联能协助单个图片取得更好的表征。在论文NFormer: Robust Person Re-identification with Neighbor Transformer中,咱们提出Neighbor Transformer来对大量输入图片进行交互式建模,以得到更好的图画表征,试验证明该办法能够达到了现在行人重辨认的SOTA, 而且能够很容易地和现有办法结兼并完成功能提高。

2.办法

行人重辨认旨在跨不同摄像机和场景检索高度改变的环境中的人员,其间行人的表征学习至关重要。大多数研讨都考虑从单个图画中学习表征,疏忽它们之间的任何潜在交互。但是,因为每个行人类内的高度改变,疏忽这种交互通常会导致一些反常离群特征。为了解决这个问题,咱们提出了Neighbor Transformer Network, 它显式地对一切输入图画之间的交互进行建模,然后抑制反常特征并取得整体上更鲁棒的表示。

CVPR2022 |小红书首创多图交互建模挑战热门研究课题,大幅提升行人重识别性能

如上图所示。输入一系列待检索的行人图片,咱们用卷积网络作为特征提取器来获取每张输入图片的深度特征。然后咱们核算图片特征之间的类似度矩阵,并运用得到的类似度矩阵来进行特征交融,得到最终交融后的特征并用于图片检索。

因为在行人重辨认使命中输入图片的数量往往很多,直接运用transformer模型对大量图画之间的交互进行建模是一项艰巨使命。因而 NFormer 引入了两个新颖的模块:Landmark Agent Attention 和Reciprocal Neighbor Softmax。具体来说,Landmark Agent Attention 通过在特征空间中运用一些landmark进行低秩分解,有效地对图画之间的关系图进行建模。此外,Reciprocal Neighbor Softmax 完成了对相关(而不是一切)相邻输入图片的稀少关系矩阵表示。以上两个模块大大降低了transformer中注意力模型的核算量,更加适用于行人重辨认使命。

CVPR2022 |小红书首创多图交互建模挑战热门研究课题,大幅提升行人重识别性能
CVPR2022 |小红书首创多图交互建模挑战热门研究课题,大幅提升行人重识别性能

上图为Landmark Agent Attention(左) 和Reciprocal Neighbor Softmax(右)的示意图。当输入N个维度为d的特征时,咱们从中采样得到l个landmark,并运用这l个landmark将输入特征从d维空间映射到l维空间。然后咱们在l维空间中进行特征的类似度核算并得到类似度矩阵A。因为l的值远小于d,类似度核算的复杂度大大降低了。在得到类似度矩阵A后,传统的transformer会用softmax函数将affinity变成probability,如右图(a)所示。因为输入图片的数量很多,而且其间绝大部分的图片都是不相关的,直接用softmax处理会使得输出的概率散布过于滑润,而且概率会被占大多数的无关输入主导。因而,咱们提出了RNS函数,在softmax的进程中只保存少数相关度高的值,在去除搅扰项的一起降低了特征交融的核算复杂度。

3.试验成果

CVPR2022 |小红书首创多图交互建模挑战热门研究课题,大幅提升行人重识别性能

上图为图片特征在经过NFormer之前(左)和之后(右)的t-SNE可视化图,能够看出,经过NFormer的处理后,行人的表征在特征空间的聚合度更好,离群值更少,更有利于后续的重辨认进程。

CVPR2022 |小红书首创多图交互建模挑战热门研究课题,大幅提升行人重识别性能

咱们在四个揭露数据集上测试了NFormer的功能。试验成果标明,咱们的办法达到了现在的SOTA。此外,NFormer能够与多个现有办法结兼并提高其功能。

CVPR2022 |小红书首创多图交互建模挑战热门研究课题,大幅提升行人重识别性能

上图为NFormer的成果与Baseline模型成果的可视化比照(每一组比照中上面一行为baseline模型成果,下面一行为NFormer成果)。其间红色的框表示检索错误的图片。能够看出,NFormer能够有效减少检索成果中的负样本。

4.结语

本文通过对多张输入图画进行联合建模来取得鲁棒的特征表达,并提出了Landmark Agent Attention和Reciprocal Neighbor Softmax模块来减少多图联合建模带来的核算量激增问题。试验标明NFormer能够大幅度提高行人重辨认功能,并在多个数据集上达到SOTA。图画检索以及多模态检索技能在小红书存在宽广的运用场景,在未来,咱们将持续深耕大规模图画检索和多模态检索技能,为用户带来更便捷,更风趣的搜索和消费体会!

5.作者信息

王昊臣

多模态算法组实习生,本硕毕业于北航,现博士就读于阿姆斯特丹大学VISLab。曾在CVPR, ECCV,ACMMM等核算机视觉尖端会议宣布论文6篇。

首要研讨方向:视频方针分割,视频表征学习。

亚顿

小红书多模态算法组算法工程师,曾在IJCV,ICCV,NIPS等核算机视觉尖端会议/期刊宣布论文5篇。

首要研讨方向:多模态表征学习,大规模图画检索等。