位置感知的自监督transformer

前言论文提出了经过猜测图画部分的相对方位来预练习网络进行语义切割。

Transformer、方针检测、语义切割沟通群

欢迎重视公众号CV技能指南，专心于核算机视觉的技能总结、最新技能盯梢、经典论文解读、CV招聘信息。

【百篇论文阅览方案】新晋级!

论文：arxiv.org/pdf/2212.02…

代码：github.com/google-rese…

论文动身点

预练习一般用于提高像素级模型推理的功用和标签效率。但是，图画级预练习是否是具有空间了解的辨认使命的最佳战略尚不清楚。一项研讨表明，一些经过图画分类预练习的模型，虽然在图画级下游使命中体现出色，但在方针检测方面体现不佳，而方针检测需求空间推理。

预练习一般运用大局方针的首要原因是：**标示在图画等级上比在像素等级上更容易搜集。**事实上，在SOTA中一般运用的图画分类或图画-文本数据集比密集标示的数据集大了几个数量级，涵盖了更多的类别。因而，释放大规模密集空间感知预练习潜力的一种办法可能是去掉标示，正如自监督学习(SSL)办法所提出的那样。

SSL的一个成功分支，一般被称为“比照学习”，其作业原理是经过数据增强来匹配从同一图画中获得的不同图画的表明。Caron等人已经表明，用比照办法练习的视觉transformer(ViT)的注意图中呈现了切割掩模。

但是，本文在开始试验中发现，在对语义切割使命进行微调后，显著注意图与优异的体现并不相关。因而，作者假设，这是因为比照办法在大局层面上没有清晰运用空间关系。

本文的首要奉献

1.本文探索了一种代替内容重建的办法，以鼓舞空间Transformer特征的呈现，即猜测相对图画部分的方位。

2.将模型完成为一个分类问题，其间查询图画中的每个patch都经过练习，以猜测其相关于参阅图画的方位。

3.可以经过掩码查询的参阅patch特征来操控使命的难度和成果特征的属性。

SSL与方位猜测

SSL中的开创性作业提出利用空间线索来生成pretext使命。值得注意的是，受word2vec的启示，Doersch等人练习了一个网络，以猜测同一图画中一对patch的相对方位，而Noroozi和Favaro经过重新排列图画中的一组混叠作物，将这种办法扩展到处理“拼图”。Zhai等人提出对ViT进行预处理，以猜测其输入patch的方位，仅考虑其视觉外观，即经过丢掉方位嵌入。作者将该战略与本文的LOCA机制进行了比较，如图2所示。

图2。单一与查询-参阅patch方位猜测机制的概念比较:(a)在单一图画中，如Zhai等人;(b)在查询图画中相关于LOCA中的参阅图画。

办法

查询参阅机制

本文提出了一种查询参阅机制来猜测图画部分的定位。具体来说，查询经过猜测一个查询图画相关于另一个参阅图画的方位来作业，如图1所示。因为查询和参阅是由两个独立的扩增图生成的，所以它们一般具有不同的图画核算信息（即不同的份额、区域或颜色直方图）。这迫使网络更少地依靠初级线索（色差、颜色和边缘一致性）来处理定位使命，而更多地依靠于辨认对象部分及其组织。

查询的使命是在参阅图画中定位自己，因而丢失仅在两个图画的相交处界说。此外，为了有利于图画部分表明的呈现，限制了查询的空间规模。然后，挑选是对参阅图画进行采样，使其掩盖原始图画的大面积，而查询图画则掩盖原始图画中的一小部分。

图1。LOCA经过猜测查询图画相关于参阅图画的方位来作业。

查询和参阅之间的对应关系

依据视觉transformer，查询图画和参阅图画被划分为分辨率为PP的非堆叠patch。更准确地说，参阅图画被平坦化为Nref。在查询图画上运用“patch化”过程，生成一系列Nqpatch。

经过回溯生成xref和xq的数据扩充图，辨认这两个图画之间的patch等级对应关系。运用连续的最近插值完成函数h，因为xq和xref的修补网格一般不完全对齐。这种效果可以在图1的示例中看到。

patch方位猜测

将查询定位问题完成为Nref -way分类使命，其间每个查询patch表明必须猜测在参阅图画中掩盖相同内容的patch的方位。为此，查询的patch表明需求可以“检查”参阅的patch表明。运用单个交叉注意转换块(用g表明)完成这种查询参阅交互，其查询从Zq核算，键和值从Zref获得。将查询表明法表明为G = G (Zq, Zref)∈RdNq，并将W∈RdNref表明为最后的“方位分类”层。练习网络使以下方位猜测丢失最小化:

均匀不同查询图画和批处理的丢失，并经过反向传播学习f, g和W参数。还运用特征猜测丢失来鼓舞在不同图画中掩盖相似内容的patch保持一致。

掩码查询可见的参阅patch

在实践中，作者发现该网络可以近乎完美地处理问题(见图3中的验证精度)。

图3。单一vs查询参阅patch方位猜测机制。

关于这两种机制，报告了方位猜测精度(左)和转移到ADE20k上的语义切割后的功用(右)关于不同的掩码比。由于查询和参阅之间的不同图画核算量以及受约束的patch交互，查询-参阅使得练习前方针更具挑战性(方位猜测使命的准确性较低)。

patch特性猜测

受UP-DETR结构的启示，作者在定位结构中增加了patch特征猜测方针，以获得更多的语义表明。patch功用不仅应该可以定位自己，并且还应该可以匹配不同上下文中处于相似方位的功用。运用根据patch的MSN结构来完成这一点。作者在开始试验中观察到，这种挑选对终究功用的影响最小，挑选MSN是因为它的稳定性。

试验

表1. Localization loss。

图5。可视化LOCA的猜测。

表2。与以往语义切割成果的比较。

表3。在ADE20k上进行少数的语义切割。

表4。语义切割中的定位与分类。

表5。消融试验。

图6。扩展试验。

欢迎重视公众号CV技能指南，专心于核算机视觉的技能总结、最新技能盯梢、经典论文解读、CV招聘信息。

【技能文档】《从零搭建pytorch模型教程》122页PDF下载

QQ沟通群：444129970。群内有大佬担任解答我们的日常学习、科研、代码问题。

模型布置沟通群：732145323。用于核算机视觉方面的模型布置、高功用核算、优化加快、技能学习等方面的沟通。

其它文章

U-Net在2022年相关研讨的论文推荐

用少于256KB内存完成边缘练习，开支不到PyTorch千分之一

PyTorch 2.0 重磅发布：一行代码提速 30%

Hinton 最新研讨：神经网络的未来是前向-前向算法

聊聊核算机视觉入门

FRNet：上下文感知的特征强化模块

DAMO-YOLO | 超越所有YOLO，兼顾模型速度与精度

《医学图画切割》总述，胪陈六大类100多个算法

怎么高效完成矩阵乘？万文长字带你从CUDA初学者的视点入门

近似乘法对卷积神经网络的影响

BT-Unet:医学图画切割的自监督学习结构

语义切割该怎么走下去？

轻量级模型规划与布置总结

从CVPR22动身，聊聊CAM是怎么激活我们文章的热度！

入门必读系列（十六）经典CNN规划演变的关键总结：从VGGNet到EfficientNet

入门必读系列（十五）神经网络不work的原因总结

入门必读系列（十四）CV论文常见英语单词总结

入门必读系列（十三）高效阅览论文的办法

入门必读系列（十二）池化各关键与各办法总结

TensorRT教程（三）TensorRT的装置教程

TensorRT教程（一）初度介绍TensorRT

TensorRT教程（二）TensorRT进阶介绍

核算机视觉中的高效阅览论文的办法总结

核算机视觉中的神经网络可视化东西与项目

核算机视觉中的transformer模型立异思路总结

核算机视觉中的传统特征提取办法总结

核算机视觉中的数据预处理与模型练习技巧总结

核算机视觉中的图画标示东西总结

核算机视觉中的数据增强办法总结

核算机视觉中的注意力机制技能总结

核算机视觉中的特征金字塔技能总结

核算机视觉中的池化技能总结

核算机视觉中的高效阅览论文的办法总结

核算机视觉中的论文立异的常见思路总结

神经网络中的归一化办法总结

神经网络的初始化办法总结

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

位置感知的自监督transformer

近期文章

近期评论