本文介绍 聊一聊最近比较火的dino,facebook出品

由Facebook发布的非监督学习DINO引发的深化考虑

本文为原创文章,未经授权不允许二次转载,如需求转载,请私信我获取授权.

好久没有更新文章了appointment,作业太忙以至于没有时间考虑.今日记载一篇关于faceboogitlabk最新论文dgoogle空间ino的考虑.这其实仍是transformer体系里边的一篇google谷歌查找主页论文,仅仅这一篇看作用比较牛逼.自始自终的,我不对论文做文字翻译,只写我google浏览器的考虑和总结,甚至是一些不对的批判,抛砖引玉,欢架构师需求把握哪些常识迎一起礼貌交流评论.

由Facebook发布的非监督学习DINO引发的深化考虑

对应的代码链接:

github.com/facebookGoogleres架构

之所以想写这篇论文,是因为题目是:Emerg架构图制造ing Properties in Self-Supervised Vision Transformers,一般我看到标题包括transformer的论文不用定会感兴趣,可是看到Self-super数据库办理体系vised (unsupervised) + Transformer, 我必定会感兴趣.个人认为,非监督学习将会是未来的一个趋势,尤其是self-supervised这种特定的办法,而途径只有或许是tran架构sformergoogle服务框架 (至少现在来看具有可行性)appearance,通过对这个方向的研讨,未来才有或git指令许建造出更加impress架构师薪酬一月多少ive的AI体系,甚至是GAI, 这就不是刷刷榜单这么giti轮胎简略了.所以今日就来好好聊聊.

近期一些非监督数据库原理作业回Google

自始自终地,我的博客产出很少,为了体现质量,我会在每一篇里边穿插许多其他的内容,牵线数据库体系搭桥,连点成线,聚线成面,让每一位读者都能架构图有一个全局把握.说道非监督,近期不得不说的几篇作业比方:

  • Momentum Contras数据库体系概论第五版课后答案t for Unsupervised Visual Representation Learning, 2019 (2数据库查询句子020录入)
  • Improved Baselines with Momentum Contrastive Learning, 2020
  • An Empigoogle商铺rical Study of Tr数据库体系工程师aining Self-Supervised Vision Transformers, 2021

了解的朋友或许一看就知道,我要说的其实便是Moco系列.这三篇论文其实都是出自何凯明之手.我们先来看看这三篇论文的时间线,第github中文官网网页一篇论文Google宣告的布景是当时NLP范畴transformer大热,运用于非监督表征学习数据库原理的使命上发生了BERT, GPT这种非常横扫NLP各个使命的模型.第二篇是对标业内架构师薪酬一月多少的新的SOTA的SimCLR,毕竟一篇当然便是今年大热的一个热门:将Transformer用于非google浏览器监督使命上.关于Transfor数据库体系概论第五版课后答案mer一些总述性质的文章可以看我之前写数据库有哪几种的:

zhuanlan.zhihu.com/p/342512339

(架构规划为毛我google回过头去看我写文章总感觉写的太粗浅了… 贻笑大方之家,后边有机Google会我会做一些视频给我们详细解说transformer!)

首要我们来回答这么几个问题:

  • moco系列处理什么问题googleplay
  • 怎样处理的?
  • 作用怎样样?

信任这也是读者比较关心的问题.再陈说之前,先回到本文数据库规划的议题:我们是要聊dino, 那么这个玩意和dino怎样联络起来呢?先别急,我们先来回答上面三个问题.

moco实际上google翻译便是运用自google谷歌查找主页监督的办法去学习比数据库查询句子如分类这样的使命,然后这种学习到的backbone也可以进一步迁移到检测切开等使命上,实验作用数据库查询句子显现它google翻译微调之后的作用比监督还好,完美的弥补了监督学习与非监督学习的距离.

mocov1

我们不深化评论一些结束细节,先贴一个论文里边的伪代码,给我们说一下详细是怎样去做的,细节暂时不做深化评论:

由Facebook发布的非监督学习DINO引发的深化考虑

这个伪代码的数据库原理做法维护了一个github部队,在这个部队里边,存储的是模approach型输出的键,也便是key,然后我们会有另一组的qu数据库体系ery, 键和查询这两个变量通过对比loss, 更新部队里边的key, 一起会吐出最早的那个batch的kegoogle地球y. 通过这么一些操作使得部队架构图制造里边的key变得更加的唯一,一起新来了新的样本数据我再更新,直到我giti轮胎的部队里边包括了一切的特征,而且每个特征都不相同,然后结束我的非监督使命.

这么做的一个优势便是部队的长度其实是可控的,这也就意味着,我可以通过增大字典的巨细,来前进分类的精准度,进而提升功用.这就好像是用反向传达的办法架构师和程序员的差异去做KNN, 你可以通过操控K的巨细来操控你的聚类作用.

至于怎样运用对比的loss, 假定知道修正momentum必定可以使得这一套可以work,以及对应的公式推导,我们可以仔细的阅读一下原本的那篇论文,论文链接都在引证里边.

mocov数据库2

第二篇其实没啥可以讲的,增加一些trick使得数据库作用更好,那我们就看看增加了什么trick. 简略来说借用了SimCLR里边的一些规划,运用到了Moco的体系内,然后跨过了架构图制造SimCLR,github永久回家地址有点借力使力的滋味.

由Facebook发布的非监督学习DINO引发的深化考虑

借用的SimCLR的trcik包括:

  • 更大b架构规划atch;
  • 毕竟的FC变成了一架构图用什么软件做个MLP (这也行??)
  • 更牛逼的数据增强

好吧,这篇感觉比较水数据库原理

mocogithubv3

这最近的这篇其实便是将非监督运用于transformer, 或许说把transformer拿过来,google浏览器堆到了非监督的使命上.那么除此之外有哪些改动没?仍是说仍是moco那一套?我不看论文我都认为不或许是之前那一套,为什么呢?因为transformer便是天然的部队啊!而token便是你的key! 所以这篇文章出来,其实是很水到渠成的.

论文中花了一些翰墨描绘他们运用ViT作为非监督学习的骨干网络的时分遇到giti轮胎的一个问题,跟着练习的进行,会变得不稳定.根木原因,他们也不知道,所以就通过操控google翻译变量的办法去架构规划检验找寻这个原因,实验发现一些风趣的结论.

由Facebook发布的非监督学习DINO引发的深化考虑

从实验中可以看出跟着batch的增大或许lr的增大,kNN accuracy都逐步呈现了dip的情况,而且dip的程度逐步增加,呈现周期性呈现。当运用LA架构师MB optimizer时,跟着lr的增加,尽管kNN accuracy仍是滑润的曲线,可是中间部分仍是会呈现阑珊数据库查询句子

文中也提到了怎样让练习变架构规划得更加稳定的一些trick.

we explore freezing the pAPPatch projection la数据库体系概论第五版课后答案yer during training.架构师需求把握哪些常识 In other wordgoogleplays, we数据库原理 use a fixed random patch projection layer to embed the patches, which is not learned. This can be easily done by applying a stop-gradient operation right after this layer.

通过free投影层的patch,换句话说,用固定的随机patch去投影,这部分参数不参加学习,这个结束起来也比较简略,可以参看moco的代码看看里边终究是怎样结束的.

由Facebook发布的非监督学习DINO引发的深化考虑

图中可以看到,运用随机投影appear的办法貌似的确处理了问题.

毕竟mocov3的作用也是跨过了之前一切的非监督架构:

由Facebook发布的非监督学习DINO引发的深化考虑

这是moco到现在为止的故事,但github中文官网网页这和我要将的DINO其实仍是纷歧东西.因为dino将会处理的问架构师薪酬一月多少题是:

除了分类,非监督学习+transformer能处理切开问题吗?换句话说,它在没有任何监督信息的根底上知道物体之间的互相联络吗?

DINO或许结束了更加阶级的视觉了解

说句实在的,我数据库办理体系自从了解了ViT里边的详细结束,遽然对trgit指令ansformer有一种很亲热的感觉,就好像我看到一位少年,乍一看,骨骼清奇,料定它未来必定会生大器,那么现在要做,便是好好出资一下它.事实上,transformer给我的,便是这么一种感觉,而深化了解DINO之后,我似乎进一步的发现transformer的潜能,所以就多写点东西与appointment我们同享.

这些年来,不管是CNN的大力发展也好,仍是transformer的数据库体系大力发展,我们其实都是在已有的监督使命上,奉告模型去建模他们看到的数据.这其实非常依赖于你关于数据的定义,这一点和NLP就很不相同,比方我们词嵌入,我不app装置下载奉告模型使命信息,它就可以知道"刘德华"是一个人名,甚至可以奉告google你其他跟这个名词有联络的名词.这是很早早年的作用数据库,现在OpenAI可以奉告你,他们做的模型不只可以了解词,还可以奉告你每个词之间的互相联络,甚至可以把你的自然语言的数据库检索问题写成SQL句子.这难道不牛逼吗?更有甚者,把GPT3的模型对接到图像范畴,完giti结了DALL-E. 奉告它 绿色的挂钟, 它就可以生成绿色的挂钟.明显它学习到了更高阶的特征.

那么Computer Vision有没有或许做到这一点呢?

今日要讲的这个dino, 其实就做到了.请了解两个作业,结束切开和非监督的结束切开是两个概念. 当然也有一些其他的办法APP结束了非监督的语义切开,这其实也不难,但结合transformer来做的,应该DINO是第一个.

由Facebook发布的非监督学习DINO引发的深化考虑

这是DINO的作用.

需求留神的是,这个是AttentionMap,架构师 dino并没有giti轮胎任何语义的ggoogleroAPPund truth, 也没有任何类别奉告它这是一只山公,可是架构师它可以把数据库有哪几种一切留神力学到在这上面.

我这么说,你或许会觉得:google翻译就这?兄弟架构是什么意思,你可别太单纯了,这是game changer!! 这等所以丢给你一张图片,没有任何GT, 它就可以自动帮你把这些atten数据库原理及使用tion学出googleplay来!再仔细想一下,这github是不是和NLP里边的embedding 很像?再想一下,我们现在最不缺的是什么?最不缺的是原始数据,每天互联网发生这么多图片,视频,假定这个数据库办理体系transformer这么牛逼,悉数丢进去,你觉得会产出一个什么样的AI? 一个超大数据库体系概论第五版课后答案版本的resnet101???

NO, no, no. 远没有这么简略.这便是为什么我看好这个方向的原因,也是我写这篇paper解析的原因.当然我们现在还不能彻底做un数据库体系工程师supervisor, 可是self-supervisor已经够用了!

就准备着Google AI或许FAIR放出更大的招吧,这将或许会使得游戏规则发生改动.

这个还能做些什么?运用Self-supervisor的办法,DINO学出来的模型,可以直接做分类,简略来说,你数据库丢给他你要分类的图片,它可以自动挖掘出每幅图片不架构图用什么软件做同的特征,并自动给你归类,想要几类有几类,这才是未来appreciate的AI.

要放到早年,我或许会觉得这种论断有点哗众取宠,可是DINO所展示出来的,不仅仅是分类的作用,还有网络学出来的非常清楚的热力求,数据库体系的中心是留神力求,这些都足以证明,DINO所能做的,不仅仅是分类github永久回家地址,包括切开,检测,未来的CV数据库原理及使用许多的task都未来可期,选用非监督的办法.

下面是DINO体系的一个简略原理.

DINO的原理其实也很简略,因为它是非监督的学习,因而它在学习的时Google分是不需求label的,为了到达这个非监督的意图,就需求

由Facebook发布的非监督学习DINO引发的深化考虑

根底来说,一个学习网google地球络,和一个教育网络.输入gitlab实际上是同一张图片,可是通过不同的google浏览器tranapproachsformation, 二者的网络结构一起,不相同的仅仅参数.teacher网络的梯度会传给学生网络.teacher网络的参数会跟着学生网络的参数更新而更新.

我们来看一下DINO网络的流程图:
由Facebook发布的非监督学习DINO引发的深化考虑

这个流程图可以说简略易懂,老appointment少皆宜了.就和我上面说的过程和那张流程图差不多.

我们来看一下DINO的效架构图制造果终究咋样:

由Facebook发布的非监督学习DINO引发的深化考虑

单看Linear这一列,是数据库办理体系一切的办法的对比,在app装置下载固定类别输出下.可以看到DINO的办法,精度是最高的,在运用DeiT的架构根底之下,精度是远远地超过了RN50, 也便是传统的CNN.

再去看k-NN这个非监督的这一行,尽管比不上固定类别,可是相差也不大,尤其是运用transformer架构的时分,误差更小.

总结

DINO实际上是一个摸着石头过河的数据库查询句子文章,里边做了许多详尽的数据库体系的中心是ablation study, 我就不逐个论说,感兴趣的同学可以仔细看看论文.毫无疑问,DINO引领我们来到了一个新的范畴,这一范畴将创始Unsupervise和Transformer新的结合.好像我之前的判别,transformer练习所需求的海量数据,仅从监督上去学习是不可的,而非监督的学习假定可以让transformer作业的很数据库体系快,那么未来毫无疑问,这将是CV的一个新的篇章数据库体系的中心是

Reference

  1. Momentum Cogit教程ntrast for Unsupervised Visual Representation Learning
  2. Improved Baselines with Momentum Contrastive Learning
  3. An Empirigiti是什么牌子cal Study of Traini架构图用什么软件做ng Self-Supervised Vision Transformers
  4. 陀飞轮-Moco三部曲
  5. Emerging Properties in Se架构师和程序员的差异lf-Supervised Vision Transformers