Transformer 跨界计算机视觉的热潮之下,有一个问题需求处理:怎么像 CNN 相同直接处理不同规范的输入?对此,美团提出了一种新式隐式条件方位编码办法,根据该办法的 CPVT 模型功用优于 ViT 和 DeiT。

**机器之github心发布,**机器之心编辑部。

随着 Facebook 的 DETR (ECCVgithub中文官网 2020)[2] 和谷歌的 ViT (ICLR大数据专业学什么 2021)[3] 的提出,Transfo开源阅览rmer 在视觉领域的运用开端灵敏升温,成为当下视觉研讨的第一热点。但视觉 Transformer 受限于固定长度计算机视觉专业的方位编码,不能像 CNN 相同直接处理不开源软件同的输入规范,这在很大程度上捆绑了视开源觉 Transformer 的运用,因为许多视觉使命,如检测,需求在检验时动态改动输入巨细。

一种处理方案是对 ViT 中方位编码进行插值,使其习气不同的图片巨细,但这种方案需求从头 fine-tune计算机视觉作业远景 模型,否则作用会变差。

最近,美团提出了一种用于视觉 Transformer 的隐式条件方位编码 CPE [1],放宽了显式方位计算机视觉好找作业吗编码给输入规范带来的捆绑,使得 Transformer 便于处理不同规范的输入。实验标明,运用了 CPE 的 Transformer 功用优于 ViT 和 DeiT。

美团提出根据隐式条件方位编码的Transformer,功能优于ViT和DeiT

论文地址:arxiv.org/pdf/2102.10…

项目地址:github.com/Meituan-Au开源中国t…(即将开源)

布景

谷歌的 ViT 办法通常将一幅 224224 的图片打散成 196 个 1616 的图片块(patch),顺次对其做大数据技能与应用线性编码,然后得到一个输入序列(input sequence),使 Transformer 能够像处理字符序列相同处理图片。一起,为了保存各个计算机视觉三大领域图片块之间的方位信息,加入了和输入序列编码维度等长的方位编码。DeiT [4] 前进了 ViT 的练习功GitHub率,不再需求把大数据集(如 JFT-300M)作为预练习的捆绑,Transformer 能够直接在 ImageNet 上练习。

关于视觉 Transformer,方位编码不可或缺

在 ViT 和 CPVT 的实验中,我们能够发github下载现没有方位编计算机视觉的技能研究码的github中文官网 Transformer 功用会出现显着下降。除此之外,在 Table 1 中,可学习(lear开源是什么意思nable)的方位编码和正余弦(sin-cos)编码作用挨近,2D 的相对编码(2D RPE)功giticomfort用较计算机视觉的技能研究差,但仍然优于去掉方位编码的情形。

美团提出根据隐式条件方位编码的Transformer,功能优于ViT和DeiT

美团、阿德莱德大学提出新式github直播渠道永久回家方位编码办法

方位编码的规划要求

显式的方位大数据是什么意思编码捆绑了输入规范,因而美团这项研讨考虑运用github中文官网隐式的根据输入而改动的变长编码办法。此外,它还需求满意以下要求github

  • 坚持很好的功用;

  • 防止排列计算机视觉专业不变性(permut计算机视觉ation equivariance);

  • 易于完结。

根据上述要求,该研讨提出了条件编码生成器计算机视觉好找作业吗 PEG(Positional Encodinggithub下载 Generator),来生成隐式的方位编码。

生成隐式的条件方位编码

在 PEG 中,将上一层 Encoder 的 1D 输出变构成 2D,再运用转化模块学习其方位信息,最终从头变形到 1D 空间,与之前的 1D 输出相加之后作为下一个 Encoder 的输入,如 Figure 2 所示。这儿的转化单元(Transoformation unit)能够是 Depthw计算机视觉三大领域ise 卷积、Depthwise大数据技能与应用 Separable 卷积或其他更为凌乱github中文社区的模块。

美团提出根据隐式条件方位编码的Transformer,功能优于ViT和DeiT

将 PEG 刺进到模型中(如 Figure 1 中添加在大数据修仙第一个 Egithub敞开私库ncoder 后),即可对各个 Encoder 添加方位编码信息。这种编码优点在于不需求显式指定,长度能够依输入改动而改动,因而被称为隐式的条件方位编码。

美团提出根据隐式条件方位编码的Transformer,功能优于ViT和DeiT

实验

ImageNet 数据集

该研讨将增开源中国加了 PEG 的 Vision Transformer 模型命名为 CPVT(Conditional Position encogithub永久回家地址dings Visual Transformer)。在 ImageNet 数据集上,相同量级的github官网 CPVT 模型功用优于 ViT 和 DegitlabiT。得益于隐式条件编码能够根据计算机视觉作业远景输入动态调整的特性,根据 224224 输入练习好的模型能够直接处理 384384 输入(Table 3 最终一开源阅览列),无需 fine-tunegithub永久回家地址 就能直接取得功用前进。相比之下,其他显式编码没有开源阅览 fine-tune 则会出现功用丢掉。

美团提出根据隐式条件方位编码的Transformer,功能优于ViT和DeiT

与其他编码方法的对比

Table 5 给出了 CPVT-Ti 模型在不同编码战略下的体现。其间在从第 0 个到第 5 个 Encoder 各刺进一个 PEG 的功计算机视觉技能用最优,Top-1Git 准确率抵达 73.4%。CPVT 单独运用 PEG 或与可学习编码相结合也优于 DeiT-t计算机视觉需求学什么iny 在各种编码战略下的体现。

美团提出根据隐式条件方位编码的Transformer,功能优于ViT和DeiT

PEG 在不同方位的作用

ViT 主干由 12 个 Encoder 组成,CPVT 对比了 PEG 坐落 -1、0、3、6、10 等处的作用。实验标明,PEG 用于第一个 Encoder 之后体现最好 (idx 0)。该研讨以为,放在第一个 egithub下载ncoder 之后不只能够供给github是干什么的全局的接受域,也能够保证模型尽早有利地势用到方位信息。

美团提出根据隐式条件方位编码的Transformer,功能优于ViT和DeiT

定论

**CPVT 提出的隐式方位编码是一个即插即用的通用办法。**它放宽了对输入规范的捆绑,因而有望促进 Vision Transformer 在切割、检测、超分辨率等使射中的进一步运用,前进其功用。这项计算机视觉作业远景研讨对后续 Vision开源节流是什么意思是什么 Transformer 的开展将产生活泼的影响。

参考文大数据与管帐

1.Do We Really Need Explicit Position Encodings for Vigithub敞开私库sion Transformers? arxiv.org/pdf大数据是什么意思/2102.10…

2.End-to-end ob计算机视觉好找作业吗ject detection with transformers大数据专业作业远景怎么 arxiv.o开源证券大智慧rg/abs/2005.12…

3.An image isgithub中文官网 worth 16×16 words: Transformers for image recogniti计算机视觉算法与应用中文版pdfon at scale openr计算机视觉硕士生工资eview.net/pdf?id=Yicb…

4.Training data-efficient image transformers & distillation through attention arxiv.org/abs/2012.12…