本文精选了美团技能团队被CVPR 2023收录的8篇论文进行解读。这些论文既有自监督学习、范畴自适应、联邦学习等通用学习范式方面的技能迭代,也触及方针检测、盯梢、分割、Low-level Vision等典型视觉使命的功能,体现了美团在根底通用技能和笔直范畴技能上的全方位立异。这些论文也是美团技能团队与国内多所高校、科研机构协作的成果。希望给从事相关研讨工作的同学带来一些启示或许协助。

写在前面

CVPR 全称为 IEEE Conference on Computer Vision and Pattern Recognition,国际核算机视觉与模式识别会议。该会议始于1983年,与ICCV和ECCV并称核算机视觉方向的三大顶级会议。根据谷歌学术发布的2022年最新学术期刊和会议影响力排名,CVPR在所有学术刊物中位居第4,仅次于Nature、NEJM和Science。2023年,CVPR共收到全球9155篇论文投稿,终究2360篇被接纳,接纳率约为25.78%。

| 01 Divide and Adapt: Active Domain Adaptation via Customized Learning

论文作者:黄铎峻(中山大学,美团实习生),李继昌(香港大学),陈伟凯(腾讯-美国),黄君实(美团),柴振华(美团),李冠彬(中山大学)

论文下载:PDF

CVPR 2023 | 美团技术团队精选论文解读

论文简介:该论文当选焦点论文(Highlight Paper)。近年来,主动范畴自适应被提出用于在范畴自适应问题中,规划主动学习算法在未标示的方针域数据中挑选最有信息量的一小批样本进行标示,来最大化的提高深度学习模型在方针域数据上的功能,到达高效的标示效率。在实践的开放场景中,方针域样本相关于源域数据的可区分度各异,即关于源域上初始化的而言具有不同层次的可迁移性。现在,鲜有工作对可迁移性各异的方针域样本分类讨论,规划高价值样本的采样战略和定制化的范畴自适应练习战略。

咱们提出了一种分而治之的战略,归纳考虑方针域样本与源域数据的差异性,和模型猜测的不确定性,来规划主动学习的采样战略,并提出定制化的方针函数来约束具有不同可迁移性的样本子集,进一步完成采样的鲁棒性。试验表明,咱们完成了在多种范畴自适应场景下的最优功能,包含无监督范畴自适应(UDA)、半监督范畴自适应(SSDA)和无源域范畴自适应(SFDA)等等。

| 02 Efficient Second-Order Plane Adjustment

论文作者:周力普(美团)

论文下载:PDF

CVPR 2023 | 美团技术团队精选论文解读

论文简介:该论文当选焦点论文(Hightlight Paper),推导出了平面优化问题Hessian矩阵的闭式解,由此提出了高效的平面优化问题的二阶优化算法。该算法能够广泛应用于深度传感器的三维高精度重建。

平面一般用于深度传感器的3D重建,例如RGB-D相机和LiDAR。本文研讨估计最佳平面和传感器位姿的问题。这由此发生的最小二乘问题在文献中被称为平面调整(PA)。迭代办法常被用来处理这些最小二乘问题。一般,牛顿法很少用于大规模最小二乘问题,因为Hessian矩阵的核算时间复杂度很高。相反,迭代算法一般采用运用Hessian矩阵的近似值,例如Levenberg Marquardt(LM)办法。本文采用牛顿法有用地处理了PA问题。

具体来说,给定姿态,最佳平面有一个闭式解。因此,咱们能够从中消除平面参数,它明显减少了变量的数量。此外,因为最佳平面是姿态的函数,这种办法实践上确保了每次迭代都能发生最佳平面,这有利于收敛。其难点在于如何高效核算Hessian矩阵以及由此发生的梯度向量。本文提供一个高效的处理方案。实证成果表明,咱们的算法优于现在的SOTA算法。

| 03 AeDet: Azimuth-invariant Multi-view 3D Object Detection

论文作者:冯承健(美团),揭泽群(美团),钟毓杰(美团),初祥祥(美团),马林 (美团)

论文下载:PDF

CVPR 2023 | 美团技术团队精选论文解读

论文简介:近年来,根据鸟瞰图的多视图3D方针检测技能在Brid-Eye-View(BEV)空间经过卷积网络检测物体,取得了巨大的发展。但是,传统的卷积疏忽了BEV特征的径向对称性,增加了检测器优化的难度。为了保持BEV特征的固有性质并便于模型优化,咱们提出了方位角等变卷积(AeConv)和方位角等变锚。方位角等变卷积的采样网格始终是径向的,因此能够学习到方位不变的BEV特征。而方位角等变锚使得检测头能够学习猜测与方位无关的方针。

此外,咱们还引进了一种相机解耦的虚拟深度,以统一具有不同相机内参的图画的深度猜测。由此发生的方针检测器被称为方位等变检测器(AeDet)。咱们在nuScenes数据集进步行了多视图3D方针检测试验:方位等变检测器取得62.0% NDS,明显逾越了现有的多视图3D方针检测办法。

| 04 Masked Auto-Encoders Meet Generative Adversarial Networks and Beyond

论文作者:费政聪(美团),范铭源(美团),朱理(美团),黄君实(美团),魏晓明(美团),魏晓林(美团)

论文下载:PDF

CVPR 2023 | 美团技术团队精选论文解读

论文简介:掩码主动编码器(Mask autoencoder,MAE)预练习办法经过随机掩码图画块(patch),然后练习视觉模型根据未掩码的图画块来重建原始图画的像素。虽然它们在下流视觉使命中表现出很好的功能,但它们一般需要很多的核算才能收效。在本文中,咱们介绍了一种根据生成对抗网络(Generative Adversarial Networks,GAN)的预练习框架。

具体来说,将生成器猜测的图画和原始掩盖的图画进行拼接,并运用判别器来猜测每一个拼接的图画块是否被替换。试验表明,因为对完好图画进行输入建模和反馈,咱们提出的MAE-GAN框架比原始的MAE像素重建作用更好。同时,经过同享主网络参数,在相同的模型大小、数据和核算量下,咱们的办法学习的视觉表征才能明显优于MAE办法。特别地,咱们在ImageNet-1k上预练习了200 epoch的ViT-B模型在下流图画分类成果上优于练习了1600 epoch的ViT-B MAE基准。

| 05 Elastic Aggregation for Federated Optimization

论文作者:陈登盛(美团),胡杰(美团),Vince Junkai Tan,魏晓明(美团),吴恩华(中科院软件所)

论文下载:PDF

CVPR 2023 | 美团技术团队精选论文解读

论文简介:在人工智能安全性上,联邦学习旨在保证数据隐私不遭到走漏的前提下完成模型的协同练习。因为在不同终端设备的数据散布存在较大差异,导致大局同享模型在运用本地数据进行优化以后会偏向本地的数据散布状况。咱们称这种现象为「客户端漂移(Client Drift)」。客户端漂移现象的存在,会导致大局同享模型在优化前期收敛缓慢,在优化后期无法到达更优解。

咱们提出了弹性聚合( Elastic Aggregation),一种新的参数更新办法用于缓解上述现象。弹性聚合首先运用每个终端设备上的无标签数据核算出对应模型参数对成果发生影响的敏感程度(Parameter Sensitivity),然后这个参数敏感程度来对大局同享模型进行加权聚合更新。弹性聚合是首个在联邦学习中充分运用无标签数据来提高模型功能的办法,而且能够十分容易地嵌入到现有的其它联邦学习优化算法中。试验表明,在联邦学习场景下弹性聚合办法能够明显提高视觉和文本理解使命的功能。

| 06 Bridging Search Region Interaction with Template for RGB-T Tracking

论文作者:惠天瑞(中国科学院信息工程研讨所,美团实习生),荀子政(北京航空航天大学),彭风景(北京航空航天大学),黄君实(美团),魏晓明(美团),魏晓林(美团),戴娇(中科院信工所),韩冀中(中科院信工所),刘偲(北京航空航天大学)

论文下载:PDF

CVPR 2023 | 美团技术团队精选论文解读

论文简介:RGB-T盯梢旨在运用可见光(RGB)和热红外(TIR)模态的互补增强才能来改进不同场景下的单方针盯梢作用,其间有用的跨模态交互是办法规划的关键一环。从前的工作直接拼接RGB和TIR的查找区域特征,或对孤立的RGB和TIR候选框对进行模态交融,导致冗余背景噪声的引进或局部区域内的上下文建模缺乏。

为了缓解上述局限性,咱们提出了模板桥接查找区域交互(TBSI)模块,该模块运用模板作为前言,经过收集和分发方针相关的对象和环境上下文来桥接RGB和TIR查找区域之间的跨模态交互。原始模板也会运用来自模板中介的丰厚多模态上下文进行更新。咱们将TBSI模块插入到ViT主干网络中,完成统一的特征提取、查找区域-模板匹配和跨模态交互,在三个干流RGB-T盯梢数据集上取得了逾越现有办法的优异功能。

| 07 Adaptive Zone-aware Hierarchical Planner for Vision-Language Navigation

论文作者:高晨(北京航空航天大学,美团实习生),彭兴宇(北京航空航天大学),严汨(北京大学),王鹤(北京大学),杨立荣(美团),任海兵(美团),李鸿升(香港中文大学),刘偲(北京航空航天大学)

论文下载:PDF

CVPR 2023 | 美团技术团队精选论文解读

论文简介:本工作聚集Vision-Language Navigation(VLN) 使命。在agent导航过程中,需要自适应地设置并完成一系列子方针。但是,从前的办法采用单步规划方案,即在每一步直接执行导航动作。在本工作中,咱们提出了一种Adaptive Zone-aware Hierarchical Planner(AZHP),明确地将导航过程分为两个异构的阶段,即经过分区/选区(High-Level Action)和子方针执行(Low-Level Action)以进行分层规划。

具体而言,AZHP经过状况切换模块(SSM)异步地执行两级操作。关于High-Level Action,咱们提出了一种Scene-Aware Adaptive Zone Partition(SZP)办法,以自适应地将整个导航区域划分为不同的子区域。经过方针区域挑选(GZS)办法,为当前子方针挑选适宜的区域。关于Low-Level Action,Agent在所选区域执行多过程导航决策。此外,咱们提出HRL战略和辅佐监督,以练习AZHP框架。试验证明了咱们提出办法的优越性,在多个VLN数据集(REVERIE、SOON、R2R)上均到达了最优的功能。

| 08 PosterLayout: A New Benchmark and Approach for Content-Aware Visual-Textual Presentation Layout

论文作者:徐筱媛(北京大学,美团实习生),何相腾(北京大学),彭宇新(北京大学),孔浩(美团),张庆(美团)

论文下载:PDF

CVPR 2023 | 美团技术团队精选论文解读

论文简介:图文展示的布局生成旨在给定的图画画布上主动安排元素(例如:广告文本、图标、衬底)的空间方位,用于广告规划中能够取代呆板的预界说模板。现有的布局生成工作疏忽了图画画布与布局的交叉关系,导致两者难兼容。

为此,该论文首先从源域多样性、主题多样性以及布局复杂度三个方面切入,树立图文展示布局数据集和评测基准PosterLayout,并提出规划序列生成网络(Design Sequence GAN),经过引进人类经验的规划序列构成(Design Sequence Formation)算法,将布局主动重组为隐含时间信息的规划序列,并以画布图画的视觉特征作为初始状况,模拟人的规划行为,主动生成与画布内容兼容的布局。试验成果验证了新基准和新办法的有用性,到达逾越现有办法的功能。该算法在论文接纳前已应用上线,现在已在美团App的外投首页广告制图等场景落地。

美团科研协作

美团科研协作致力于搭建美团技能团队与高校、科研机构、智库的协作桥梁和渠道,依托美团丰厚的业务场景、数据资源和真实的工业问题,开放立异,汇聚向上的力气,围绕机器人、人工智能、大数据、物联网、无人驾驶、运筹优化等范畴,一起探究前沿科技和工业焦点宏观问题,促进产学研协作沟通和成果转化,推进优秀人才培养。面向未来,咱们期待能与更多高校和科研院所的教师和同学们进行协作。欢迎教师和同学们发送邮件至:meituan.oi@meituan.com。

| 在美团公众号菜单栏对话框回复【2022年货】、【2021年货】、【2020年货】、【2019年货】、【2018年货】、【2017年货】等关键词,可查看美团技能团队历年技能文章合集。

CVPR 2023 | 美团技术团队精选论文解读

| 本文系美团技能团队出品,著作权归属美团。欢迎出于共享和沟通等非商业意图转载或运用本文内容,敬请注明“内容转载自美团技能团队”。本文未经许可,不得进行商业性转载或许运用。任何商用行为,请发送邮件至tech@meituan.com申请授权。