作者:京东探究研讨院
深度学习在很大程度上影响了遥感印象剖析范畴的研讨。可是,大多数现有的遥感深度模型都是用ImageNet预练习权重初始化的,其间天然图画不可避免地与航拍图画比较存在较大的域距离,这或许会约束下流遥感场景使命上的微调功能。
为此,京东探究研讨院联合武汉大学、悉尼大学借助迄今为止最大的遥感场景标注数据集MillionAID,从头开端练习包含卷积神经网络(CNN)和现已在天然图画计算机视觉使命中体现出了杰出功能的视觉Transformer(Vision Transformer)网络,初次取得了一系列根据监督学习的遥感预练习根底主干模型。并进一步研讨了ImageNet预练习(IMP)和遥感预练习(RSP)对包含语义切割、方针检测在内的一系列下流使命的影响。
试验效果证实了探究研讨院先条件出的先进Vision Transformer系列模型ViTAE在遥感使命上的优越性,并发现RSP在遥感使命上的有效性以及感知相关语义方面具有的独特性。试验效果进一步标明RSP会受到上下流使命差异的影响,这些发现对遥感大规划数据集和预练习办法提出了新的要求。

01
研讨布景
近年来,深度学习凭借自动提取反映物体固有属性的深度特征的优势,在计算机视觉范畴取得了令人印象深入的突破,遥感范畴也不例外。在遥感范畴,最常用的是深度模型是卷积神经网络(CNN)。现在,简直一切的遥感深度模型都是在计算机视觉范畴最著名的图画数据集 ImageNet-1K 数据集进步行预练习,该数据会集来自 1,000 个不同类别的百万张真实国际图画使模型可以学习强大的表明。然后这些预练习后的模型被可以用做遥感使命的主干网络进行进一步微调。
虽然这些模型在遥感使命中取得了明显的作用,但仍有一些问题需求研讨。直观地说,与天然图画比较,遥感图画在视角、颜色、纹路、布局、方针等方面明显存在较大的域距离。曾经的办法企图经过进一步微调遥感图画数据集上的预练习模型来缩小这一距离。可是,ImageNet预练习(IMP)引进的体系误差对功能有着不可忽视的副作用。另一方面,咱们留意到,随着遥感技术的前进,各式各样的传感器捕捉到了丰富的遥感图画,可以用于预练习。作为一个代表性的例子,MillionAID 是迄今为止最大的遥感图画数据集,它是从包含多种传感器图画的谷歌地球(GE)上搜集的,而且具有类似ImageNet-1K的百万级图画数量规划,这使遥感预练习(RSP)成为或许。
RSP可以从头开端练习深度模型,这意味着候选模型不用局限于现成的CNN。因而,在本文中,咱们也研讨了视觉Transformer(Vision Transformer)的主干网络,它们在计算机视觉范畴体现出了令人惊奇的功能。与CNN中拿手部分建模的卷积比较,Vision Transformer中的多头自留意(MHSA)可以灵敏地捕捉不同的大局上下文。最近,探究研讨院提出的ViTAE模型探究了卷积和MHSA的平行结构,以一起建模部分性和长程依赖性,在ImageNet分类使命和下流视觉使命上取得了很好的效果。此外,它还经过扩张卷积模块和层级规划提取多标准特征,这关于计算机视觉下流使命,尤其是在遥感图画了解使命,都具有重要的价值。因而咱们研讨了CNN和层级Vision Transformer网络经过RSP后,在场景辨认、语义切割、方针检测和改变检测等遥感使命上的微调功能。为了完结这些方针,咱们在九个盛行的数据集进步行了广泛的试验,并得出了一些有利的定论。RSP是遥感图画了解中的一个新式研讨方向,但仍处于探究阶段,尤其是根据Vision Transformer这种新型网络架构的预练习办法。咱们希望这项研讨可以填补这一空白,并为未来的研讨供给有用的见地。
02
MillionAID,ViTAE 和ViTAEv2的介绍
1.MillionAID
MillionAID 是迄今为止遥感范畴最大的数据集。它包含 100,0848 个不重叠的场景,有51类,每类大约有2,000-45,000图画。该数据集来自谷歌地球,由包含但不限于 SPOT、IKONOS、WorldView 和 Landsat 系列的多种传感器组成,因而图画分辨率不同。最大分辨率可达0.5m,最小的则有153m。图画巨细范围从 110110 到 31,67231,672。该数据集均为RGB图画,十分适合练习典型的视觉神经网络模型。
2.ViTAE 和ViTAEv2

ViTAE是探究研讨院最近提出的先进Vision Transformer模型,它选用深窄式规划,在网络开端时敏捷降采样,然后将网络加深,在提高功能的一起降低模型巨细和计算成本。ViTAE 模型首要经过三个Reduction Cell将输入图画下采样到1/16分辨率。与 ViT 类似,在添加方位编码之前,将class token与第三个Reduction Cell的输出衔接。然后堆叠多个Normal Cell,并始终坚持特征图分辨率。终究一个Normal Cell的class token输入到线性层进行分类。ViTAE 模型在 ImageNet 数据集上分类功能体现出色,但它不方便像CNN那样发生层次化的中心特征,然后迁移到切割、检测和姿态估计等其它下流使命(现在有一些新技术来处理这个问题,例如ViTDet,并已取得较好效果,请重视咱们的复现Repo:github.com/ViTAE-Trans…
在此根底上,探究研讨院提出了 ViTAEv2,它选用了 ResNet 和 Swin 等盛行主干网络的层次化规划。在 ViTAEv2 中,网络被分红四个阶段。每个阶段首要选用Reduction Cell进行下采样,然后堆叠多个 Normal Cell进行特征变换。在终究一个阶段的Normal Cell后运用大局均匀池化层来替换class token。当对下流使命进行微调时,该池化层被移除,剩下的网络与相应使命的解码器相连。图 2 显现了原始 ViTAE 和 ViTAEv2的网络架构。

Reduction Cell和Normal Cell是 ViTAE 中最重要的两个模块,它们是根据典型的Transformer模块来构建的。Reduction Cell用于下采样并供给多标准上下文。详细来说,在输入归一化层和 MHSA 层之前,这些特征会经过一个金字塔减缩模块(PRM)。该模块包含具有不同扩张率的多个并行的扩张卷积,其间步幅巨细操控了空间降采样率。在 PRM 后,来自平行分支的特征在通道维衔接。PRM 将 CNN 的标准不变性引进 ViTAE,而部分性建模则是经过将输入到PRM 的特征一起送入到并行卷积模块 (PCM)中来完结。PCM 坐落与包含 PRM 和 MHSA 的大局依赖途径平行的附加分支中,它由三个接连的卷积层组成。经过调整步幅,PCM 的下采样率与 PRM 相同。来自MHSA、PCM 和原始残差分支的三个特征在输入前馈网络(FFN)之前进行加法交融。需求留意的是,Normal Cell和Reduction Cell具有类似结构,可是不包含 PRM模块。
受 Swin Transformer的启发,ViTAEv2中上述cell中的一些 MHSA 被替换为窗口MHSA(WMHSA)以降低计算成本。考虑到后期特征尺寸变小,不需求用窗口区别特征。因而,只要前两个阶段的 MHSA 被 WMHSA 替代。需求说明的是,ViTAEv2选用的 WMHSA 不需求像Swin Transformer那样进行循环偏移,由于 WMHSA 是在 PRM 的合并多标准特征进步行的,其间不同区域之间现现已过扩张卷积的重叠感触野完结了信息交换。此外,由于卷积现已可以编码方位信息,ViTAEv2也不需求再运用相对方位编码。ViTAE 和 ViTAEv2 中不同cell的详细结构和比较如图3所示。
在本次研讨中,咱们首要评价原始 ViTAE 的“Small”版本,名为 ViTAE-S。相应的,咱们还选用了 ViTAEv2-S 模型,由于它具有出色的表征才能和对下流使命更好的可迁移性。
03
遥感预练习的实施
1. 确认预练习模型
咱们首要确认用于RSP的深度模型的类型。为此,咱们从MillionAID官方练习会集构建了一个迷你练习集和迷你评价集,别离有9775和225张图画。注:后一组是经过从每个类别中随机挑选5张图画来平衡类别。关于CNN,运用了经典的ResNet-50。由于本研讨首要探讨RSP下的CNN和Vision Transformer模型的功能,因而咱们还评价了一系列典型的根据Vision Transformer的网络,包含DeiT-S 、PVT-S 和Swin-T。挑选特定版本模型的一个考量是为了确保这些模型和ResNet-50以及ViTAE-S模型具有类似的参数量。此外,考虑到ViT是视觉Transformer的最基本模型,咱们挑选了其最小版本ViT-B 模型以供参考。


表II展现了各个模型的效果,可以看出,虽然ViT-B的参数最多,但其功能不如经典的ResNet-50。DeiT-S体现最差,由于咱们没有选用教师模型辅佐练习。由于咱们的使命是利用遥感图画进行预练习,因而获取相应的教师模型可以认为是咱们的方针而不是条件。经过引进特征金字塔的规划范式,PVT-S与ViT-B比较提高了准确性。在此根底上,原始ViTAE-S模型进一步考虑了部分性和标准不变性这些传统CNN具有的概括偏置。
可是,由于早期下采样模块(Reduction Cell, RC)中的特征分辨率较大,需求更多的计算,因而需求花费较多的练习时刻。Swin-T经过在固定窗口中约束MHSA来处理这个问题,并选用窗口偏移来隐式促进窗口之间的通信。ViTAEv2引进了这种窗口多头自留意力(Window MHSA, WMHSA),并由于卷积旁路现已可以促进跨窗信息交互,然后省去了窗口偏移和相对方位编码操作。终究,ViTAEv2-S完结了最佳功能,并以2.3%的top-1准确率超过了第二名。
根据上述效果,咱们挑选候选模型的详细程序如下。首要,咱们挑选ResNet-50作为常规CNN中的代表网络。经过遥感预练习的ResNet-50,可以在一系列遥感数据集上供给一组新的CNN参考基线。由于准确率低、参数多,咱们没有挑选DeiT-S和ViT-B模型作为候选模型。此外,由于堆叠Transformer的规划,它们很难迁移到下流使命中。(现在有一些新技术来处理这个问题,例如ViTDet,并已取得较好效果,请重视咱们的复现Repo:github.com/ViTAE-Trans…
Swin Transformer也具有PVT的特征金字塔结构,并选用WMHSA取代大局MHSA,节省了显存和计算量。由于Swin-T的top-1精度大于PVT且需求的练习时刻较少,因而咱们在后续试验中也挑选了Swin-T作为候选模型。关于ViTAE模型,咱们挑选功能最强的模型,即ViTAEv2-S,以希望在后续使命(如遥感场景辨认)中具有杰出的功能。
2. 取得适宜的权重
在确认上述候选模型后,咱们对它们进行 RSP 以取得预练习的权重。详细来说,为了坚持类别平衡,咱们在 MillionAID 数据集的每个类别中随机挑选 1,000 张图画,形成包含 51,000 张图画的验证集,与包含 50,000 张图画的 ImageNet 验证集的规划适当,并把剩下的 949,848 张图画用于练习。

为了取得适宜的预练习权重,咱们在不同练习代数(epoch)的装备下别离练习 ViTAEv2-S 模型。效果如表III所示。可以观察到模型在大约 40 个 epoch 后开端功能饱满,由于与练习 20 个 epoch 比较,top-1 准确率仅提高了0.64%,而接下来的 20 个 epoch 只带来了0.23% 的增益。因而,咱们首要挑选练习了 40 个 epoch 的网络权重作为 ViTAEv2-S 的 RSP 参数,并应用于后续使命。直觉上,在大规划预练习数据集上体现杰出的模型在下流使命上也会体现杰出。因而,咱们还在下流使命中运用了经过 100 个 epoch 练习的网络权重。这些模型别离用后缀“E40”和“E100”表明。
关于 ResNet-50 和 Swin-T,咱们遵循Swin 的练习设置,即模型练习了 300 个 epoch。在试验中,咱们观察到 Swin-T-E120 在验证集上的 top-1 准确率大致适当于 ViTAEv2-S-E40。因而,咱们也挑选了 Swin-T-E120 的练习权重。相同,咱们也挑选了终究的网络权重 Swin-T-E300 作为与 ViTAEv2-S-E100 的比较。为了使试验公正,还考虑了运用 40 个 epoch 练习的 ResNet-50 和 Swin-T 的权重,由于它们与 ViTAEv2-S-E40 经过了相同的练习代数。

终究的预练习模型列在表IV中。可以看出,验证集准确率简直随着练习 epoch 的添加而添加。可是,Swin-T-E300 的功能略低于 Swin-T-E120。虽然如此,咱们依然保留了Swin-T-E300 模型。由于模型在练习阶段见到更多的样本之后,它或许具有更强的泛化才能。
04
下流使命上的微调试验
1. 场景辨认

定量试验: 表 V 展现了运用不同办法预练习的上述候选模型和其他 SOTA 办法的效果。终究三组中的粗体字表明每组中最好的效果,而“*”表明一切模型中最好的(在其他使命中含义相同)。与 ImageNet 预练习的 ResNet-50 比较,咱们的遥感预练习 ResNet-50 在一切设置下均提高了准确性。这些效果意味着 RSP 为后续微调过程的优化带来了更好的起点。相同,RSP-Swin-T 在三个设置上的体现优于 IMP-Swin-T,在其他两个设置上也取得了可比较的效果。此外,与其他杂乱办法比较,ResNet-50 和 Swin-T 仅运用 RSP 权重而不改变网络结构的情况下就取得了有竞争力的效果,然后证明了遥感预练习的价值。
此外,在比较 ImageNet 预练习的 ResNet-50 和 Swin-T 时,咱们可以发现 IMP-Swin-T 在一切设置上的体现都更好,由于Vision Transformer具有更强的上下文建模才能。不过在经过 RSP 权重进行初始化后,ResNet 变得更具竞争力。由于 ViTAEv2-S一起具有部分建模才能和远程依赖建模才能,不管 IMP 和 RSP,它在简直一切设置上都优于 ResNet-50 和 Swin-T。此外,RSP-ViTAEv2-S 在除 AID (5:5) 之外的简直一切设置上都完结了最佳功能。

定性试验:图4 显现了不同评价模型来自各种场景的图画的不同区域的呼应。与 IMP-ResNet-50 比较,RSP-ResNet-50 更重视重要方针。这意味着 RSP 有助于 ResNet-50 学习更好的表明,归功于 MillionAID 数据会集供给的大量语义类似的遥感图画。令人惊奇的是,IMP-Swin-T 模型首要重视布景区域,但经过 RSP 之后,其远景呼应得到了明显增强。ViTAEv2-S经过结合CNN和视觉转换器的优势,一起具有部分和大局上下文捕捉才能,完结了对整个场景的全面感知。RSP-ViTAEv2-S 不只重视首要方针,还考虑了布景中的相关区域。在远景物体上,RSP-ViTAEv2-S 也能给予更高的重视度,在方针散布杂乱的场景,RSP-ViTAEv2-S可以形成统一且完好的地物表征,有效感知场景的整体信息。
2. 语义切割

定量试验: 表VII 展现了选用UperNet 结构时,咱们的办法和其他 SOTA 办法在iSAID数据集上的切割效果。可以看出,将主干网络从 ResNet-50 更改为 Swin-T,再更改为 ViTAEv2-S 时,功能有所提高。效果与上述场景辨认效果共同,标明视觉Transformer具有更好的表明才能。另一方面,经过ImageNet预练习的IMP-Swin-T 取得了具有竞争力的效果,而IMP-ViTAEv2-S 在 iSAID 数据集上取得了最佳功能。表VII 还显现了 RSP 模型的优势在于感知一些具有清晰遥感语义的类别,例如“桥梁”,这符合之前场景辨认使命中的发现。

定性试验: 图 6 中展现了在 Potsdam 数据集上选用不同预练习主干网络的UperNet 切割模型的一些视觉切割效果。关于长条形地物,其长度较长,要求模型可以捕获长程上下文,而宽度又较窄,对模型的部分感知才能又提出了要求,而ViTAEv2网络由于将CNN的部分性和标准不变性引进到Vision Transfomer网络中,一起具有了CNN和Transformer的优势,因而可以一起完结大局和部分感知。因而,只要ViTAEv2-S成功衔接了长条状低矮植被(如红框所示)。
3. 方针检测

定量试验: 表VIII 显现了 方针检测验验的效果。在具有挑战性的 DOTA 数据集上,可以看出运用先进的 ORCN 检测结构,选用ResNet-50 或 Swin-T 主干网络的模型体现杰出。ViTAEv2-S 经过引进了 CNN 的部分性和标准不变性等概括误差,取得了惊人的功能,将 ORCN 基线提高了近 2% mAP。需求留意的另一点是,RSP在这三个主干网络上的功能都优于IMP。RSP-ViTAEv2-S 的整体mAP比IMP-ViTAEv2-S 高,由于 RSP 在“桥梁”以及包含“直升机”和“飞机”在内的飞行器类别上具有显着优势,而在其他类别上,这两种模型之间的距离并不很大。

定性试验: 图7 可视化了 DOTA 测验集上运用 ViTAEv2-S 主干网络的 ORCN 模型的一些检测效果。红框表明,当方针密集散布时,RSP-ViTAEv2-S 依然可以猜测正确的方针类别,而 IMP-ViTAEv2-S 被密集上下文混杂并做出过错猜测。关于长条形的“桥梁”类别,IMP-ViTAEv2-S 发生了漏检(见黄色框),而 RSP-ViTAEv2-S 模型以更高的置信度分数成功检测到该物体,这再一次呼应了先前的发现。
4. 改变检测

定量试验: 表X 中展现了选用不同预练习主干网络的BIT 结构在改变检测使命上的定量试验效果。可以看到,自监督的 SeCo 预练习权重在此使命上体现杰出,虽然SeCo 的方针是经过比照学习以完结时节不变性特征学习,但由于其选用了多头子空间嵌入的方式对改变特征进行编码,所以其依然能在详细的分支上学习到对时节改变敏感的特征表明。虽然如此,经过 IMP 或 RSP 预练习的 ViTAEv2-S 的功能优于 SeCo-ResNet-50,显现了运用先进主干网络的好处。与其他办法比较,ViTAEv2-S取得了最佳功能,显现了将先进的Vision Transformer模型应用于遥感范畴的潜力。
经过不同模型在不同使命下RSP和IMP下的功能比照,咱们可以推断出改变检测所需表明的粒度应该介于切割和检测之间,由于它虽然是一个切割使命,可是只要两个类别,不需求去辨认特定的语义类别。
定性试验: 图8展现了一些视觉改变检测效果。可以看出,IMP 的 ResNet-50 和 Swin-T 并不能很好地检测到天然场景中郊野内路途的改变。选用 RSP 可以部分缓解这个问题。SeCo-ResNet-50 进一步提高了路途区域的检测,这与表X 中的效果共同。与上述模型比较,ViTAEv2-S 模型有效地捕捉到了路途细节。在人工改变的场景中,ViTAEv2-S 模型处理了一切其他模型效果中存在的方针粘连问题,这标明 ViTAEv2-S 的特征在区别物体和布景方面更具判别力。
5. 不同遥感预练习主干网络的概括比较

终究,咱们全面比较了 RSP 在一切使命上的不同主干网络的功能。详细来说,咱们对每个使命的一切数据集的分数进行均匀计算,效果如表XI。可以发现,预练习更多 epoch 的主干通常在下流使命上体现更好,由于它们取得了更强的表明。虽然也有例外,例如预练习300代的 Swin-T 模型在方针检测使命体现不如预练习120代的对应模型,这暗示使命差异也很重要。结合了 CNN 和Vision Transformer优势的ViTAEv2-S模型在一切使命上都体现出了最好的功能。
05
定论
在这项研讨中,咱们在最大的遥感数据集 MillionAID 上研讨了根据 CNN 和Vision Transformer的遥感预练习问题,并概括评价了它们在场景辨认、语义切割、方针检测和改变检测四个下流使命上的体现,并将它们与 ImageNet 预练习和其他 SOTA 办法进行比较。经过概括剖析试验效果,咱们得出以下定论:
(1) 与传统的 CNN 模型比较,视觉Transformer在一系列遥感使命上体现出色,特别是 ViTAEv2-S这种将 CNN 的固有概括偏置引进到Vision Transformer的先进模型,在这些使命的简直一切设置中都完结了最佳功能。
(2) 经典 IMP 使深度模型可以学习更通用的表明。因而,IMP 在处理遥感印象数据时,仍可以发生具有竞争力的基线效果。RSP 发生了可与 IMP适当或者更好的效果,而且由于减轻了上游预练习使命和下流使命之间的数据差异,因而在某些特定类别(例如“桥梁”和“飞机”)上体现更为出色。
(3) 使命之间的差异对 RSP 的功能也有影响。如果特定下流使命所需的表明更接近上游预练习使命(例如场景辨认),则 RSP 通常会带来更好的功能。
咱们希望这项研讨可认为遥感社区供给有关运用先进Vision Transformer和遥感预练习的有用见地。为了方便大家运用,一切遥感预练习模型及相关代码均已开源,详见github.com/ViTAE-Trans… 。别的,关于选用非层次化Vision Transformer模型应用于下流使命的研讨进展,可以重视ViTDet的办法以及咱们的复现代码:github.com/ViTAE-Trans… 。咱们也会在ViTAE-Transformer-Remote-Sensing的官方repo中不断更新相应的效果。
论文链接:arxiv.org/abs/2204.02…
项目地址:github.com/ViTAE-Trans…
参考文献
[1] D.Wang, J. Zhang, B.Du, G-S.Xia and and D. Tao, “An Empirical Study of Remote Sensing Pretraining”, arXiv preprint, axXiv: 2204: 02825, 2022.
[2] Y. Long, G.-S. Xia, S. Li, W. Yang, M. Y. Yang, X. X. Zhu, L. Zhang, and D. Li, “On creating benchmark dataset for aerial image interpretation: Reviews, guidances and million-aid,” IEEE JSTARS, vol. 14, pp. 4205–4230, 2021.
[3] Y. Xu, Q. Zhang, J. Zhang, and D. Tao, “Vitae: Vision transformer advanced by exploring intrinsic inductive bias,” NeurIPS, vol. 34, 2021.
[4] Q. Zhang, Y. Xu, J. Zhang, and D. Tao, “Vitaev2: Vision transformer advanced by exploring inductive bias for image recognition and beyond,” arXiv preprint arXiv:2202.10108, 2022.
[5] T. Xiao, Y. Liu, B. Zhou, Y. Jiang, and J. Sun, “Unified perceptual parsing for scene understanding,” in ECCV, 2018, pp. 418–434.
[6] X. Xie, G. Cheng, J. Wang, X. Yao, and J. Han, “Oriented r-cnn for object detection,” in ICCV, October 2021, pp. 3520–3529.
[7] H. Chen, Z. Qi, and Z. Shi, “Remote Sensing Image Change Detection With Transformers,” IEEE TGRS., vol. 60, p.3095166, Jan. 2022.
[8] Y. Li, H. Mao, R. Girshick, K. He. Exploring Plain Vision Transformer Backbones for Object Detection[J]. arXiv preprint arXiv:2203.16527, 2022.