近期,FAIR的Kaiming He组发布了关于视频的无监督学习研讨:A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning,这篇论文被CVPR2021录googleplay入。论文的中心是将近期图画中的无监督学习办法使用在视频的无监督练习中。这个作业实宫颈癌疫苗验十分充沛,也只要Faceboogoogle商店k和Google 这样的大厂才有满足的算法剖析的目的是资源来做这样的大规模试验。

论文中共算法的五个特性选取了四种无监督学习办法狗狗币:MoCo,BYOL,S算法的三种基本结构imCLR,SwAV。其间MoCo和SimCLR是需求负样本的对比学习办法,而BYOL和SwAV是只依托正样本的无监督学习办法。从别的一个视点看,MoCo和google空间BYOL都选用了mome工商银行ntum encoder,而算法的五个特性SimCLR和SwAV并没有。这儿的四种办法有两类是Fa算法的三种基本结构cebook提出的(MoC算法o和SwAV),别的的两类狗狗币SimCLR和BYOL则是Google提出的 。

FAIR最新无监督研讨:视频的无监督时空表征学习

这四种办法原本都是用于图画的无监督练习,视频比较图画仅仅多了一个时刻维度,这些办法能够十分容龚俊易地扩展到视频的无监督学习中。无论是图画分类仍是视频分类,无监督就是要学习到特征不变量。详细到图画上,上述办法其实算法的五个特性都是要同一个图画做不同的augmegoogle服务结构ntation送入一个encoder网络来学习到不变的特征。那么关于视频分类来说,除了图画本身的转换外,还增加了时序维度。论文的做法是从同一个视频中sample不同的视频片段google空间clips来做无监督算法的有穷性是指学习(这其实可当作video独有的augmentation),这其实是期望学习到temporally-persistent features。论文中挑选的是SlowFa算法的时刻复杂度是指什么st R-5Google0来最为encoder。下图展示了从一个龚俊视频中抽取3个不同的clips:

FAIR最新无监督研讨:视频的无监督时空表征学习

假设只抽取一个clips,那么学习就算法的三种基本结构其实只依托图画算法的三种基本结构本身的转换,枸杞这关于视频分类明显不可。论文试验也证明了:more clips are beneficial。从下表能够看出,跟着clips的增加,四类办法的功用均会行进,这说明对视频的无监督学习来说:lea工商银行rningoogle地球g space-time persistence within a video isgoogle商店 important

FAIR最新无监督研讨:视频的无监督时空表征学习

别的一点是在采样时timesp算法的时刻复杂度是指什么an between positives越大越有用,这点也不算法的时刻复杂度取决于难了解,宫颈癌因为图画中也是越工商银行hard augmentation越好。不同clgoogle翻译ips时刻差越大Google,将会产生hard positive,关于学习反而是有利的。不过假设是长视频,那么时刻差比较大的cl机器学习ips或许会产生语义改动,从论文google空间试验作用来看,对作用影响算法的时刻复杂度取决于反而很小(图画分类的random crop其实也会改动语算法义,比方crop到了布景区域,不过看起来练习是能够容许n宫颈癌oise的)。如下表所示,关于Igoogle浏览器G-Curated-1M数据集,当timespan大于60s时,功用还有行进;而关于IG-Uncurated-1M数据集,当timespangoogle地球大于600s时,功用也仅仅有略微下降。

FAIR最新无监督研讨:视频的无监督时空表征学习

详细到四种办法上,从google试验作用来看,尽管4种办法功用没算法的三种基本结构有太明显的间隔,可是MoCo和BYOgoogle翻译L的作用要稍高于SimCLR和SwAV,前面现已说话前者都选用了momentum encoder,moment公积金贷款um encoder的作用是尽量坚持模型输出的一致性,或许宫崎骏视频分类这个问题上影响更大。论文里面也没有给出详细的解说。关狗狗币于视频分类来说,因为练习所需资源更多,会不会无法选用较大的batch sizes(论文中是64*8=512),导枸杞致SimCLR作用稍差?这儿面的变量较多,或许还需求进一步的研讨。

当无监督用于下宫颈癌游使命时,无算法的五个特性监督练习办法在某些数据集上甚至能够跨过有监督练习的办法,如根据BYOL在K400-240K无监督练习后使用在AVA和SSv2数据集上功用能够跨过直接根据K400-240K的有监Google督练习后再在两个数据集上finetune。

FAIR最新无监督研讨:视频的无监督时空表征学习

论文还有更多的试验,更多能够详见论文:arxiv.org/pdf/2104.Go14…

这篇论文通过许多的试验证明了无监督学习在视频分类问题上的有用性,正如论文完毕所述,未来还有持续行进的空间:

We observed that linear read算法out on Kinetics is a good indicator宫颈癌疫苗 of the performance on other datgoogle翻译asets and that unsupervised pre-training can compete with the supervised counterpart on算法的时刻复杂度取决于 several datasets, but there is room for igoogle服务结构mprovement. We hope that our baselines will foster research and provide comm宫颈癌on ground for future comparisons.

推荐阅览

CP公积金VT:一个卷积就能够隐式编码方位信息

DETR:根据 Transformers 的政策检测

MoCo V3:我Google并不是你想的那样!

T算法的时刻复杂度是指什么ransformer在语义分割上的使用

“未来”的经典之作ViT:transformer is all you need!

PVT:可用于布满使命backbone的金字塔视觉transformer!

涨点神器FixRes:两次跨过ImageNet数据集上的SOTA

Transforme算法设计与剖析r为何能闯入CV界秒杀CNN?

无妨试试MoCo,来替换ImageNet上pretrain模型!

机器学习算法工程师


一个用心的大众号

FAIR最新无监督研讨:视频的无监督时空表征学习


FAIR最新无监督研讨:视频的无监督时空表征学习