消除视觉Transformer与卷积神经网络在小数据集上的差距

本文共享自华为云社区《[NeurIPS 2022] 消除视觉Transformer与卷积神经网络在小数据集上的距离》，作者：Hint。

本文简要介绍NeurIPS 2022录用的论文“Bridging the Gap Between Vision Transformers and Convolutional Neural Networks on Small Datasets”的主要工作。该论文旨在经过增强视觉Transformer中的概括偏置来提高其在小数据集上从随机初始化开始练习的辨认功能。本文经过多种操作构建混合模型，增强视觉Transformer捕捉空间相关性的才能和其进行通道多样性表征的才能，弥补了Transformer在小数据集上从头练习的精度与传统的卷积神经网络之间的距离。目前该论文的代码处于待开源，在附录部分已有每个模块详细的伪代码展现。

1. 研讨背景

卷积神经网络 (Convolutional Neural Networks, CNN) 作为骨干网络 (Backbone) 现已在核算机视觉范畴占有主导地位相当长的一段时间。而近三年来视觉Transformer (Vision Transformers, ViT) 逐步成为另一种典型的Backbone模型，在核算机视觉各个任务上获得了令人满意的作用。原版的ViT [1]需求现在JFT-300M这样大规模的数据集上预练习，然后在ImageNet-1K上进行微调才能获得较好的作用。以往关于ViT的改进办法，例如DeiT [2]，T2T-ViT [3], CvT [4], Swin Transformer [5]等办法现已能够在ImageNet-1K上从头练习获得较好的作用，但在更小的数据集例如CIFAR-100上，从头练习的精度与CNN仍有较大距离。

本文概括了以往研讨[6, 7, 8]的观念，指出“练习数据的缺少使得ViT无法在网络的浅层****关注到部分区域”，进而对深层语义信息的提取与加工形成影响。此外“练习数据的缺少还会使得ViT学习到的物体表征不够充沛”，因而难以进行准确辨认。针对上述两个问题，本文指出练习数据的缺少使得ViT自身难以获得“空间相关性”与“通道多样性表征”两种概括偏置，进而提出了多个模块来将概括偏置引入ViT，极大地提高了其在小数据集上的辨认功能。

2. 办法简述

（1）算法主结构：如图1所示，本文采用的是非金字塔型的Transformer结构，并使用class token进行分类。每个编码器层包括一个头交互的多头留意力 (Head-Interacted Multi-Head Self-Attention, HI-MHSA) 以及一个动态聚合前馈神经网络 (Dynamic Aggregation Feed Forward, DAFF). 在patch embedding部分采用了接连堆叠的块嵌入模块 (Sequential Overlapped Patch Embedding, SOPE)。网络将最后一层输出的class token送入到线性分类头进行最后的辨认。

图1：全体架构

（2）接连堆叠的块嵌入模块SOPE：同目前其他主流的ViT相同，本文相同采用了卷积操作进行patch embedding。一起本文还引入了额外的仿射变换操作，增加在小数据集上练习时的稳定性。

（3）动态聚合前馈神经网络DAFF：本文的在原版的前馈神经网络基础上进行改进，在两个线性层之间加入了深度卷积来进行范畴信息的捕捉，弥补了ViT在空间上概括偏置的缺少。一起本文在卷积旁路采用了shortcut衔接，保持了原有的大局信息。因为class token无法参加卷积核算，一起又期望对class token进行信息增强，因此作者引入了类似于通道留意力的操作，将卷积后的patch token进行大局平均池化与非线性映射，再逐通道对class token进行加权。

图2：DAFF结构

（4）头交互的多头留意力HI-MHSA：在ViT中，核算留意力时会将向量分红多个头，并在每个头中单独进行留意力的核算。因为数据量的缺少，ViT所学习到的物体表征无法进行准确辨认，每个头中所包括的物体表征相对较弱，因此本文额外引入了head token，旨在将各个头中较弱的物体表征融合形成满足强的表征。在数据送入多头留意力核算前，会先进行head token的提取。输入数据会依据设定的留意力头的数量，将数据划分红平等数量的分段，然后将每个分段重新映射成和本来相同的通道数。head token将会和其他一切token一同进行留意力的核算。此刻每一个留意力头都会获得来自于其他留意力头的信息，将各个较弱的表征融合成了足以进行准确辨认的物体表征。流程如图3所示。

图3：HI-MHSA结构

3. 实验成果

本文在多个小数据集上进行**“**从头练习 (train from scratch)”，包括CIFAR-100以及多个DomainNet的数据集，一起还在ImageNet-1K上进行实验，证明本文办法在较大的数据集上相同有用。

（1）在CIFAR-100上与SOTA的比照如下表。能够看到本文办法不仅能够逾越以往一切ViT和Hybrid系列办法，一起还能以较少的参数量逾越CNN的精度。

（2）DomainNet数据集的统计信息，以及各个办法在DomainNet数据集上的作用如下，相同展现了本文办法在精度上的优越性。

（3）本文办法与SOTA办法在ImageNet-1K上的比照成果如下。能够看到本文办法逾越了以往一切的非金字塔型ViT模型，一起还能逾越同期的较多金字塔型ViT模型。

（4）消融实验部分相同展现了本文各个模块的有用性。

4. 可视化成果

本文展现了留意力可视化成果。下图4展现了各个head token的留意力分布不同，表明了各个数据分段和留意力头对应不同的物体表征。

图4：head token的留意力可视化

本文还展现了在ImageNet-1K上练习出来的留意力分布，如图5所示。因为head token放在了其他token的后边，因此留意力求最右边的几列表示一切token对head token的留意力激活。

能够看到一切的token在网络的浅层时主要关注临近的token，提取部分信息。到了中间层，例如7-10层时，模型进行大局信息的交互，一起使用head token将各个head的表征融合在一同。到了最深层的11和12层，模型再次回归到大局信息的挑选，得到最终的分类信息表征。该图展现了一种或许的ViT信息提取方式，或许会对未来ViT模型的信息提取形式带来启示。

图5：DHVT-S在ImageNet-1K上的留意力可视化

5. 总结

本文经过弥补ViT模型所缺失的两种概括偏置，极大地提高了其在小数据集上的分类精度，达到了与传统CNN相等甚至更好的作用。一起本文所引入的留意力交互机制或许会对未来研讨产生启示。但本文的办法相同存在缺点，例如优良的精度是以巨大的核算代价带来的，期待未来的后续工作能够探索到在核算负担和精度直接进行杰出折中的办法。

相关资源：

论文地址：arxiv.org/pdf/2210.05…

代码链接：github.com/ArieSeirack… (待补全开源)

参考文献

[1] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020.
[2] Touvron H, Cord M, Douze M, et al. Training data-efficient image transformers & distillation through attention[C]//International Conference on Machine Learning. PMLR, 2021: 10347-10357.
[3] Yuan L, Chen Y, Wang T, et al. Tokens-to-token vit: Training vision transformers from scratch on imagenet[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 558-567.
[4] Wu H, Xiao B, Codella N, et al. Cvt: Introducing convolutions to vision transformers[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 22-31.
[5] Liu Z, Lin Y, Cao Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 10012-10022.
[6] Raghu M, Unterthiner T, Kornblith S, et al. Do vision transformers see like convolutional neural networks?[J]. Advances in Neural Information Processing Systems, 2021, 34: 12116-12128.
[7] Park N, Kim S. How Do Vision Transformers Work?[J]. arXiv preprint arXiv:2202.06709, 2022.
[8] d’Ascoli S, Touvron H, Leavitt M L, et al. Convit: Improving vision transformers with soft convolutional inductive biases[C]//International Conference on Machine Learning. PMLR, 2021: 2286-2296.

点击关注，第一时间了解华为云新鲜技术~

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。