CVPR2023 | 集成预训练金字塔结构的Transformer模型

前语本文提出了一种新的预练习模型架构（iTPN ），该架构由多个金字塔形的Transformer层组成。每个层都包括多个子层，其中一些是一般的self-attention和feed-forward层，而另一些则是新的pyramid层。Pyramid层是一种新的层类型，它被规划为对输入进行多粒度的表示学习。此外，iTPN 还运用了一些其他的技巧，以进步模型的鲁棒性和泛化才能。
iTPN 在 ImageNet-1K 上达到了top-1 准确率，在运用 Mask RCNN 进行 1 练习计划的 COCO 方针检测上达到了高精度的APmIoU ，在运用 UPerHead 的 ADE20K 语义切割上——所有这些成果都创下了新记载。

欢迎重视大众号CV技能攻略，专心于计算机视觉的技能总结、最新技能盯梢、经典论文解读、CV招聘信息。

CV各大方向专栏与各个布置结构最全教程整理

论文：arxiv.org/pdf/2211.12…

代码：github.com/sunsmarterj…

论文出发点

大多数现有的预练习使命都是根据ViT。即使运用了分层结构的ViT（例如，SimMIM、ConvMAE 和 GreenMIM ），但预练习使命只会影响backbone，不会影响到neck（例如，特征金字塔）。对下流使命进行预练习模型微调，只会把backbone和参数进行搬迁。由此，优化从随机初始化的neck开端，不能确保与预练习的backbone一起作用，这对下流使命进行微调而言是不利的。因此，本文提出一个完好的预练习结构来减轻这种危险。

立异思路

首要，经过将特征金字塔插入预练习阶段（用于重建）并在微调阶段重用权重（用于辨认）来一致上游和下流的neck（将预练习的backbone和neck一起搬迁到下流使命）。其次，为了更好地预练习特征金字塔，提出一个新的掩蔽特征建模 (MFM) 使命，以进步了重建和辨认的准确性。同时，使得Backbone 在与 neck 的联合优化过程中变得更加强壮。

办法

整体架构

在本文中，预练习使命是掩蔽图画建模 (MIM)，微调使命能够是图画分类、对象检测和实例/语义切割。现有办法假设它们共享相同的backbone ，但需要不同的neck和head。

在数学上，预练习和微调方针写为：

模型架构如下图所示，传统预练习（左）与主张的整体预练习结构（右）之间的比较。本文运用特征金字塔作为一致的neck模块，并使用掩码特征建模来预练习特征金字塔。绿色和红色块分别表示网络权重是经过预练习和未练习的（即随机初始化以进行微调）。

Unifying Reconstruction and Recognition

分层Transformer模型包括 S 个阶段，每个阶段都有几个转换器块。大多数情况下，backbone（也称为编码器）逐步对输入信号进行下采样并生成 S + 1 个特征图。经过在微调中重复运用一些参数，以大大缩小传输差距：在预练习和微调之间仅有保持独立的模块是head。Masked

Feature Modeling

为了获得捕获多阶段特征的才能，咱们在每个阶段增加一个重建head，并优化以下多阶段损失：

学习常识蒸馏的主意，使用教师backbone来生成中心方针。教师模型被挑选为移动平均编码器（没有引进外部常识）或另一个预练习模型（如CLIP，即在图画文本对的大型数据集进步行了预练习）。在前一种情况下，只将蒙版块提供给教师模型进行加快。在后一种情况下，按照 BEiT将整个图画提供给预练习的 CLIP 模型。

成果

作者在分类、检测、切割三个下流使命进步行对比实验。其中，分类使命在ImageNet-1K数据集上对iTPN与现有办法进行对比：

对预练习的neck进行搬迁的iTPN办法在COCO数据集进步行了检测和实例切割的对比实验：

生成的留意力求对比效果：

欢迎重视大众号CV技能攻略，专心于计算机视觉的技能总结、最新技能盯梢、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技能文档】《从零建立pytorch模型教程》122页PDF下载

QQ交流群：444129970。群内有大佬担任解答我们的日常学习、科研、代码问题。

其它文章

AI布置与算法/自动驾驶/深度学习材料汇总！

点云模型专栏（一）概述、特性、存储格式、数据集

AAAI 2023 | 一种通用的粗-细视觉Transformer加快方案

计算机视觉各个方向交流群与常识星球

【免费送书活动】全新轻量化模型 | 轻量化沙漏网络助力视觉感知涨点

方针盯梢专栏（一）基本使命、常用办法

CV各大方向专栏与各个布置结构最全教程整理

一文尽览 | 自动驾驶中光流的使用、挑战和改善

方针检测、实例切割、旋转框样样精通！详解高性能检测算法 RTMDet

CV算法工程师卷得要死，布置工程师却成为了香饽饽

大卷积模型 + 大数据集 + 有监督练习！探寻ViT的前身：Big Transfer (BiT)

高效轻量级语义切割综述

超快语义切割 | PP-LiteSeg集速度快、精度高、易布置等优点于一身，必会模型！！！

数据集+插件，一把子解决遮挡下方针检测难题

AAAI | Panini-Net | 根据GAN先验的退化感知特征插值人脸修

一文带你掌握轻量化模型规划准则和练习技巧！

图画增强新思路：DeepLPF

LCCL网络：相互辅导博弈来提高方针检测精度（附源代码）

与SENet互补提高，华为诺亚提出自留意力新机制：Weight Excitation

最新FPN | CFPNet即插即用，助力检测涨点，YOLOX/YOLOv5均有用

DeepLSD：根据深度图画梯度的线段检测和细化

CVPR 2023 | 根底模型推进语义切割的弱增量学习

消费级显卡的春天，GTX 3090 YOLOv5s单卡完好练习COCO数据集缩短11.35个小时

BOE告知你：一层卷积能够做超分！

卫星图画揭露数据集资源汇总

DiffusionDet：用于对象检测的扩散模型

CV小常识讨论与剖析(7) 寻找论文立异点的新方法

CV小常识剖析与讨论(6）论文立异的一点误区

计算机视觉入门1v3辅导班

计算机视觉交流群

聊聊计算机视觉入门

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

CVPR2023 | 集成预训练金字塔结构的Transformer模型

近期文章

近期评论