导读

TL;DR: 今天分享一篇论文主题为RepViT的作业,本文要点探讨了在资源有限的移动设备上,经过从头审视轻量级卷积神经网络的规划,并整合轻量级 ViTs 的有用架构挑选,来进步轻量级 CNNs 的功能。

1.3ms 延迟 | 清华 ICCV 2023 最新开源移动端网络架构 RepViT,速度贼溜!

能够看出,RepViT 比较于其它主流的移动端 ViT 架构确实时很优异。接下来让咱们来看下本作业做了哪些贡献:

  1. 文中说到,轻量级 ViTs 一般比轻量级 CNNs 在视觉使命上表现得更好,这首要归功于它们的多头自注意力模块(MSHA)能够让模型学习大局表明。但是,轻量级 ViTs 和轻量级 CNNs 之间的架构差异尚未得到充分研讨。

  2. 在这项研讨中,作者们经过整合轻量级 ViTs 的有用架构挑选,逐步进步了规范轻量级 CNN(特别是 MobileNetV3 的移动友好性。这便衍生出一个新的纯轻量级 CNN 宗族的诞生,即RepViT。值得注意的是,尽管 RepViT 具有 MetaFormer 结构,但它完全由卷积组成。

  3. 试验结果表明,RepViT 逾越了现有的最先进的轻量级 ViTs,并在各种视觉使命上显示出优于现有最先进轻量级ViTs的功能和效率,包含 ImageNet 分类、COCO-2017 上的目标检测和实例切割,以及 ADE20k 上的语义切割。特别地,在ImageNet上,RepViTiPhone 12 上到达了近乎 1ms 的推迟和超越 80% 的Top-1 准确率,这是轻量级模型的首次打破。

好了,接下来大家应该关心的应该时“怎么规划到如此低推迟但精度还很6的模型”出来呢?

办法

1.3ms 延迟 | 清华 ICCV 2023 最新开源移动端网络架构 RepViT,速度贼溜!

ConvNeXt 中,作者们是依据 ResNet50 架构的基础上经过谨慎的理论和试验分析,终究规划出一个十分优异的足以比美 Swin-Transformer 的纯卷积神经网络架构。同样地,RepViT也是首要经过将轻量级 ViTs 的架构规划逐步整合到规范轻量级 CNN,即MobileNetV3-L,来对其进行针对性地改造(魔改)。在这个过程中,作者们考虑了不同粒度级别的规划元素,并经过一系列步骤到达优化的目标。

1.3ms 延迟 | 清华 ICCV 2023 最新开源移动端网络架构 RepViT,速度贼溜!

练习配方的对齐

首要,论文中引进了一种衡量移动设备上推迟的目标,并将练习战略与现有的轻量级 ViTs 对齐。这一步骤首要是为了确保模型练习的共同性,其触及两个概念,即推迟衡量和练习战略的调整。

推迟衡量目标

为了更准确地衡量模型在真实移动设备上的功能,作者挑选了直接丈量模型在设备上的实践推迟,以此作为基准衡量。这个衡量办法不同于之前的研讨,它们首要经过FLOPs或模型巨细等目标优化模型的推理速度,这些目标并不总能很好地反映在移动运用中的实践推迟。

练习战略的对齐

这儿,将 MobileNetV3-L 的练习战略调整以与其他轻量级 ViTs 模型对齐。这包含运用 AdamW 优化器【ViTs 模型必备的优化器】,进行 5 个 epoch 的预热练习,以及运用余弦退火学习率调度进行 300 个 epoch 的练习。尽管这种调整导致了模型准确率的稍微下降,但能够保证公平性。

块规划的优化

接下来,依据共同的练习设置,作者们探索了最优的块规划。块规划是 CNN 架构中的一个重要组成部分,优化块规划有助于进步网络的功能。

1.3ms 延迟 | 清华 ICCV 2023 最新开源移动端网络架构 RepViT,速度贼溜!

分离 Token 混合器和通道混合器

这块首要是对 MobileNetV3-L 的块结构进行了改善,分离了令牌混合器和通道混合器。本来的 MobileNetV3 块结构包含一个 1×1 扩张卷积,然后是一个深度卷积和一个 1×1 的投影层,然后经过残差连接连接输入和输出。在此基础上,RepViT 将深度卷积提早,使得通道混合器和令牌混合器能够被分隔。为了进步功能,还引进了结构重参数化来在练习时为深度滤波器引进多分支拓扑。终究,作者们成功地在 MobileNetV3 块平分离了令牌混合器和通道混合器,并将这种块命名为 RepViT 块。

下降扩张份额并增加宽度

在通道混合器中,原本的扩张份额是 4,这意味着 MLP 块的躲藏维度是输入维度的四倍,耗费了大量的核算资源,对推理时间有很大的影响。为了缓解这个问题,咱们能够将扩张份额下降到 2,然后削减了参数冗余和推迟,使得 MobileNetV3-L 的推迟下降到 0.65ms。随后,经过增加网络的宽度,即增加各阶段的通道数量,Top-1 准确率进步到 73.5%,而推迟只增加到 0.89ms!

宏观架构元素的优化

在这一步,本文进一步优化了MobileNetV3-L在移动设备上的功能,首要是从宏观架构元素出发,包含 stem,降采样层,分类器以及全体阶段份额。经过优化这些宏观架构元素,模型的功能能够得到显著进步。

浅层网络运用卷积提取器

1.3ms 延迟 | 清华 ICCV 2023 最新开源移动端网络架构 RepViT,速度贼溜!

ViTs 一般运用一个将输入图画切割成非重叠补丁的 “patchify” 操作作为 stem。但是,这种办法在练习优化性和对练习配方的敏感性上存在问题。因此,作者们选用了前期卷积来代替,这种办法已经被许多轻量级 ViTs 所选用。对比之下,MobileNetV3-L 运用了一个更杂乱的 stem 进行 4x 下采样。这样一来,尽管滤波器的初始数量增加到24,但总的推迟下降到0.86ms,一同 top-1 准确率进步到 73.9%。

更深的下采样层

1.3ms 延迟 | 清华 ICCV 2023 最新开源移动端网络架构 RepViT,速度贼溜!

在 ViTs 中,空间下采样一般经过一个独自的补丁合并层来完成。因此这儿咱们能够选用一个独自和更深的下采样层,以增加网络深度并削减由于分辨率下降带来的信息丢失。具体地,作者们首要运用一个 1×1 卷积来调整通道维度,然后将两个 1×1 卷积的输入和输出经过残差连接,构成一个前馈网络。此外,他们还在前面增加了一个 RepViT 块以进一步加深下采样层,这一步进步了 top-1 准确率到 75.4%,一同推迟为 0.96ms。

更简略的分类器

1.3ms 延迟 | 清华 ICCV 2023 最新开源移动端网络架构 RepViT,速度贼溜!

在轻量级 ViTs 中,分类器一般由一个大局均匀池化层后跟一个线性层组成。比较之下,MobileNetV3-L 运用了一个更杂乱的分类器。由于现在最终的阶段有更多的通道,所以作者们将它替换为一个简略的分类器,即一个大局均匀池化层和一个线性层,这一步将推迟下降到 0.77ms,一同 top-1 准确率为 74.8%。

全体阶段份额

阶段份额代表了不同阶段中块数量的份额,然后表明了核算在各阶段中的分布。论文挑选了一个更优的阶段份额 1:1:7:1,然后增加网络深度到 2:2:14:2,然后完成了一个更深的布局。这一步将 top-1 准确率进步到 76.9%,一同推迟为 1.02 ms。

微观规划的调整

接下来,RepViT 经过逐层微观规划来调整轻量级 CNN,这包含挑选适宜的卷积核巨细和优化揉捏-鼓励(Squeeze-and-excitation,简称SE)层的方位。这两种办法都能显著改善模型功能。

卷积核巨细的挑选

众所周知,CNNs 的功能和推迟一般遭到卷积核巨细的影响。例如,为了建模像 MHSA 这样的远距离上下文依赖,ConvNeXt 运用了大卷积核,然后完成了显著的功能进步。但是,大卷积核对于移动设备并不友好,由于它的核算杂乱性和内存拜访本钱。MobileNetV3-L 首要运用 3×3 的卷积,有一部分块中运用 5×5 的卷积。作者们将它们替换为3×3的卷积,这导致推迟下降到 1.00ms,一同保持了76.9%的top-1准确率。

SE 层的方位

自注意力模块相对于卷积的一个优点是依据输入调整权重的才能,这被称为数据驱动特点。作为一个通道注意力模块,SE层能够弥补卷积在缺少数据驱动特点上的约束,然后带来更好的功能。MobileNetV3-L 在某些块中加入了SE层,首要会集在后两个阶段。但是,与分辨率较高的阶段比较,分辨率较低的阶段从SE供给的大局均匀池化操作中获得的准确率进步较小。作者们规划了一种战略,在所有阶段以交叉块的方法运用SE层,然后在最小的推迟增量下最大化准确率的进步,这一步将top-1准确率进步到77.4%,一同推迟下降到0.87ms。

【这一点其实百度在很早前就已经做过试验比对得到过这个定论了,SE 层放置在靠近深层的地方效果好】

网络架构

终究,经过整合上述改善战略,咱们便得到了模型RepViT的全体架构,该模型有多个变种,例如RepViT-M1/M2/M3。同样地,不同的变种首要经过每个阶段的通道数和块数来区别。

1.3ms 延迟 | 清华 ICCV 2023 最新开源移动端网络架构 RepViT,速度贼溜!

试验

:::block-1

图画分类

1.3ms 延迟 | 清华 ICCV 2023 最新开源移动端网络架构 RepViT,速度贼溜!

:::

:::block-1

检测与切割

1.3ms 延迟 | 清华 ICCV 2023 最新开源移动端网络架构 RepViT,速度贼溜!

:::

总结

本文经过引进轻量级 ViT 的架构挑选,从头审视了轻量级 CNNs 的高效规划。这导致了 RepViT 的呈现,这是一种新的轻量级 CNNs 宗族,专为资源受限的移动设备规划。在各种视觉使命上,RepViT 逾越了现有的最先进的轻量级 ViTs 和 CNNs,显示出优胜的功能和推迟。这突显了纯粹的轻量级 CNNs 对移动设备的潜力。

写在最终

如果你也对神经网络架构的研讨感兴趣,十分欢迎扫描屏幕下方二维码或者直接查找微信号 cv_huber 增加小编老友,补白:校园/公司-研讨方向-昵称,与万千学者专家一同交流探讨更多风趣的神经网络架构!